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本 书 介绍 了 实用 机 咒 学 习 的 工作 流程 ， 主 要 从 实用 角度 进行 了 描述 ， 
没有 数学 公式 和 推导 。 本 书 涵盖 了 数据 收集 与 处 理 、 模 型 构建 、 评 价 和 优 
化 、 特 征 的 识别 、 ee 高 级 特征 工程 、 数 据 可 视 化 技术 以 及 
a ee 结合 3 个 真实 案例 全 面 、 详 细 地 介绍 了 整个 机 带 学 习 
流程 。 最 后 ， 还 介绍 了 机 器 学习 流程 的 扩展 和 大 数据 应 用 。 
本 书 可 以 作为 程序 员 、 数 据 分 析 师 、 统 计 学 家 、 数 据 科 学 家 解决 实际 
问题 的 参考 书 ， 也 可 以 作为 机 器 学 习 爱 好 者 学 习 和 应 用 的 参考 书 ， 还 可 以 
作为 非 专业 学 生 的 机 器 学 习 和 人 门 参考 书 ， 以 及 专业 学 生 的 实践 参考 书 。 
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在 过 去 的 几 年 里 ， 机 带 学 习 已 成 为 一 个 很 大 的 产业 : 公司 用 它 赚 钱 ， 对 它 的 应 用 研究 遍 
布 工业 领域 和 高 校 ， 好 奇 的 开发 人 员 到 处 寻找 能 提高 他 们 机 融 学 习 技 巧 的 方法 。 但 是 这 种 新 
发 现 的 学 习 需 求 已 经 大 大 超过 了 市 场 上 能 够 提供 的 学 习 这 些 技术 如 何在 实际 中 应 用 的 好 方 
法 ， 而 本 书 恰好 填补 了 这 一 空 日。 

应 用 机 如 学 习 包含 对 等 的 数学 原理 和 技巧 ， 也 就 是 说 ， 它 是 一 门 真正 的 学 问 。 特 别 专注 
于 任何 一 个 方面 都 不 是 好 办 法 ， 掌 握 平衡 是 非常 必要 的 。 

人 们 在 相当 长 的 时 间 内 认为 学 习 机 顺 学 习 最 好 的 方式 ， 而 且 是 唯一 的 方式 ， 是 在 统计 学 
和 优化 技术 两 个 方面 (很 大 程度 上 是 相互 独立 的 ) 追求 更 高 的 学 位 。 主 要 是 学 习 核 心算 法 ， 
包含 它们 的 理论 基础 和 边界 以 及 该 领域 的 特征 域 问题 。 相 应 地 ， 同 样 有 价值 的 经 验 积累 在 非 
官方 渠道 传递 : 会 场 外 走廊 上 ， 研 究 实验 室 的 团队 智 达 和 数据 处 理 手稿 在 成 员 之 间 传 递 。 这 
种 口头 传递 的 知识 往往 有 助 于 工作 的 完成 ， 包 括 : 针对 情况 进行 算法 选择 ， 每 一 步 数据 如 何 
打磨 以 及 如 何 把 各 个 部 分 组 成 一 个 有 机 整体 。 

如 今 我 们 生活 在 一 个 开源 的 时 代 ，GitHub 上 有 大 多 数 机 顺 学 习 算 法 的 高 质量 实现 方法 ， 
还 有 综合 的 、 结 构 良 好 的 、 能 组 合 各 个 部 分 的 框架 可 以 使 用 。 但 在 这 繁荣 的 背后 ， 这 些 口 头 
传递 的 知识 还 是 为 大 多 数 人 所 不 知 的 。 本 书 作者 提供 了 这 项 服务 ， 把 这 些 知识 收集 在 一 起 。 
这 正 是 机 带 学 习 从 深奥 的 学 科 转 向 工程 应 用 技能 所 缺失 的 重要 环节 。 

男 一 点 需要 强调 的 是 ， 现 在 大 多 数 广泛 使 用 的 机 屁 学 习 算 法 并 不 完美 ， 我 们 需要 设计 更 完 
善 的 解决 方案 。 这 些 算法 对 接收 的 数据 很 挑剔 ， 如 果 目 标 不 明确 ， 则 算法 可 能 给 出 过 分 自信 的 
预测 。 输 入 的 细微 改变 会 导致 学 习 模 型 巨大 的 、 葛 名 其 妙 的 变化 。 它 们 的 结果 难以 解释 且 难 以 
做 进一步 处 理 。 现 代 机 器 学 习 可 被 看 作 管 理 和 减轻 底层 优化 与 统计 学 习 方法 的 一 个 应 用 。 

本 书 正 是 按照 读者 所 面临 的 现实 而 组 织 的 。 首 先 ， 在 深入 人 研究 这 个 流程 应 用 于 实际 之 
前 ， 描 述 了 机 器 学 习 典 型 的 工作 流程 。 通 过 阅读 你 会 发 现 一 些 方程 (别处 也 可 看 到 ， 主 要 
包含 在 本 领域 的 经 典 文档 中 ) ， 更 重要 的 是 如 何 将 机 器 学 习 应 用 到 实际 项 目 和 解决 方案 中 。 

作为 宝贵 的 数学 和 形式 化 知识 的 有 益 补 充 ， 现 在 是 学 习 这 本 书 的 时 候 了 。 它 是 许多 老手 
希望 在 回头 时 看 到 的 至 关 重 要 的 另 一 本 书 。 





























一 Beau Cronin 
Head of Data, 21 Inc. 
Berkeley, CA 
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作者 厅 


作为 物理 学 和 天 文学 专业 的 学 生 ， 我 的 大 部 分 时 间 都 用 于 处 理 测量 和 模拟 数据 ， 对 数据 
进行 分 析 、 可 视 化 和 建 模 ， 以 期 得 到 具有 科学 价值 的 数据 。 作 为 程序 员 ， 我 很 快 就 把 程序 设 
计 的 技巧 用 于 数据 处 理 。 第 一 次 接触 机 器 学 习 时 ， 对 我 来 说 ， 它 不 仅 是 数据 处 理 的 有 力 的 潜 
在 工具 ， 还 是 我 感 兴趣 的 两 个 领域 的 完美 结合 一 一 数据 科学 和 程序 设计 。 

机 器 学 习 成 为 我 在 物理 科学 研究 中 的 一 个 重要 组 成 部 分 ， 并 把 我 带 到 加 州 大 学 伯克利 分 
校 天 文系 ， 那 里 的 统计 人 员 、 物 理学 家 和 计算 机 科学 家 们 正在 一 起 努力 ， 把 机 器 学 习作 为 理 
解 宇宙 的 一 个 越 来 越 重 要 的 工具 。 

在 时 域 信 息 中 心 ， 我 遇 到 了 约瑟夫 W. 理 查 效 ， 他 是 一 个 统计 学 家 ， 而 且 还 是 本 书 的 作 
者 之 一 。 我 们 了 解 到 ， 不 但 可 以 利用 数据 科学 和 机 器 学 习 技 术 进 行 科 学 研究 ， 非 学 术 界 的 公 
司 和 企业 对 此 也 越 来 越 感 兴趣 。 我 们 与 其 他 3 位 同事 共同 创立 了 Wise. io 来 抓 住 这 一 机 会 。 

在 过 去 的 4 年 里 ，Wise. io 已 经 与 数 不 清 的 公司 通过 机 器 学 习 对 他 们 的 数据 处 理 流程 进 
行 优化 、 提 高 和 实现 自动 化 。 我 们 已 经 构建 了 大 规模 机 器 学 习 应 用 平台 ， 每 月 为 客户 进行 几 
亿 次 预测 。 我 们 了 解 到 实用 领域 的 数据 仍 是 比较 混乱 的 ， 这 使 得 我 们 十 分 吃惊 。 我 们 和 希望 把 
实用 数据 处 理 和 构建 下 一 代 智 能 机 器 学 习 软 件 的 知识 传授 给 读者 。 

马克 … 弗 特 罗 夫 ， 本 书 的 第 3 位 作者 ， 是 多 个 创业 公司 的 创始 人 兼 CTO ( Chief Technol- 
ogy Officer， 首 席 技术 官 ) ， 他 在 传统 的 统计 和 定量 方法 的 基础 上 ， 进 行 系统 管理 和 业务 分 
析 。 在 石油 化 工 精炼 过 程 的 测试 和 优化 中 ， 他 和 他 的 团队 认识 到 应 用 在 生产 过 程 中 的 技术 可 
用 于 提高 数据 库 、 计 算 机 系统 和 网 络 的 性 能 。 他 们 的 分 布 式 系 统管 理 技术 已 退 入 到 系统 管理 
领先 的 产品 中 ， 后 续 将 应 用 于 电信 和 客户 交互 管理 系统 的 管理 和 优化 。 

几 年 后 ， 他 沉迷 于 Kaggle 比赛 并 完成 了 向 机 器 学 习 领 域 的 转换 。 他 领导 了 一 个 有 线 电 
视 推荐 项 目 ， 由 于 工作 需要 ， 学 习 了 许多 关于 大 数据 的 技术 ， 适 用 于 并 行 计算 的 算法 和 人 们 
对 机 器 推荐 的 反应 方式 。 最 近 几 年 ， 他 是 机 器 学 习 应 用 的 顾问 ， 并 进行 数字 广告 、 电 信 、 半 
导体 制造 、 系 统管 理 和 客户 体验 优化 等 方面 的 实用 预测 分 析 。 












































Henrik Brink 


致谢 


感谢 Manning 出 版 社 和 所 有 参与 本 书 编写 的 人 员 ， 特 别 是 苏 珊 娜 ， 克 莱恩 ， 感 谢 她 在 本 
书写 作 过 程 中 的 耐心 指导 。 

感谢 Beau Cronin 为 本 书 作 序 ， 也 感谢 Valentin Crettaz 对 所 有 章节 进行 了 深入 的 技术 校 
对 。 许 多 其 他 审核 人 员 给 我 们 提供 了 有 益 的 反馈 ， 具 体 有 Alain Couniot，Alessandrini Alfre- 
do, Alex Iverson, Arthur Zubarev, David H. Clements, Dean Iverson, Jacob Quant, Jan Goy- 

















vaerts, Kostas Passadis, Leif Singer, Louis Luangkesorn, Massimo llario, Michael Lund, Moran 
Koren, Pablo DominguezVaselli, Patrick Toohey, RavishankarRajagopalan, Ray Lugo, Ray 
Morehead, Rees Morrison, Rizwan Patel, Robert Diana 和 UrsinStauss。 

马克 ' 弗 特 罗 夫 感谢 克 雷 格 ' 卡 迈 克 尔 分 享 他 对 机 器 学 习 的 阁 迷 ; 对 妻子 帕 特 里 夏 和 女 
儿 艾 米 多 年 的 支持 表示 感谢 。 

享 里 克 … 布 林 克 对 Wise. io 团队 和 创立 者 分 享 他 们 使 用 机 器 学 习 解 决 实际 问题 的 热情 表 
示 感 谢 。 同 时 ， 感 谢 他 的 父母 Edith 和 Jonny， 还 有 他 的 兄弟 姐妹 传递 知识 和 话语 的 热情 ， 
更 重要 的 是 要 感谢 他 的 妻子 Ida 和 儿子 Harald， 感谢 他 们 的 爱 与 支持 。 
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爱 、 激 情 与 支持 。 











译音 厅 


虽然 机 絮 学 习 已 经 有 几 十 年 的 发 展 历 史 , 但 对 于 大 多 数 人 来 说 ， 它 还 是 那么 神秘 ! 它 是 
只 有 在 顶尖 的 象牙 塔 里 或 者 尖端 企业 中 才 会 研究 和 使 用 的 技术 。 大 量 的 数学 公式 令 人 望 而 生 
鞭 ， 它 就 站 在 高 高 的 云端 ， 人 俯视 着 靶 芭 众生。 让 大 家 都 能 使 用 和 享受 这 一 “尖端 ”技术 ， 
仍然 任 重 而 道 远 。Brink 的 这 本 《Real - World Machine Learning》 给 大 家 带 来 了 上 曙光， 这 里 
没有 令 人 望 而 生 其 的 数学 公式 和 证 明 推 导 ， 而 是 将 整个 机 带 学 习 应 用 过 程 九 九 道 来 ,分 享 他 
的 实际 工作 经 验 和 技术 。 只 要 你 有 一 定 的 编程 基础 ， 就 可 以 通过 学 习 本 书 来 使 用 “机 器 学 
习 ” 这 么 “高 深 ” 的 技术 了 。“ 旧 时 王 谢 堂前 蒸 ， 飞 入 寻常 百姓 家 ”， 让 高 精 尖 的 “机 响 学 
习 ” 技 术 来 到 我 们 中 间 ， 让 我 们 近 距 离 体验 它 的 魅力 吧 !1 

作为 计算 机 专业 的 教师 ， 我 喜欢 尝试 新 的 东西 ， 兴 趣 驱 使 着 我 不 断 地 学 习 和 探索 新 的 领 
域 。 当 看 到 《Real - World Machine Learning》 这 本 书 时 ， 我 真正 感觉 到 适合 自己 的 书稿 来 
了 ， 我 一 定 要 完成 它 的 翻译 。 经 过 不 懈 的 努力 ， 终 于 迎 来 了 胜利 的 明光。 翻译 过 程 痛 并 快乐 
着 ， 一 方面 感受 作者 的 博大 精 次 ， 一 方面 悍 荡 于 自己 的 才 玻 学 浅 。 在 整个 翻译 过 程 中 ， 我 都 
司 刁 不 安 ， 唯 忍 不 能 准确 传达 作者 的 真实 意图 。 对 于 各 种 专业 术语 ， 不 论 是 统计 学 的 、 算 法 
的 ,还 是 汽车 的 、 广 告 的 ， 都 在 网 上 搜索 了 很 多 遍 ， 并 问 专 家 反复 请 教 ， 推 项 多 遍 方 才 确 
定 。 对 于 每 一 字 每 一 句 ， 都 反复 琢磨 很 多 遍 ， 对 翻译 片段 反复 组 合 ， 优 中 选 优 ， 力求 忠于 原 
文 并 符合 中 文 的 表达 习惯 ， 避 免 在 阅读 过 程 中 让 读者 感到 生硬 和 不 连贯 。 

“ 纸 上 得 来 终 觉 浅 ， 绝 知 此 事 要 射 行 。 这 是 我 多 年 来 教学 过 程 中 领悟 最 深 的 一 句 话 。 
无 论 学 习 还 是 做 事 ， 必 须 落实 到 行动 上 ， 不 要 做 “语言 的 巨人 , 行动 的 矮子 ”。 读 书 更 是 如 
此 ， 推 荐 大 家 在 阅读 本 书 时 ， 除 了 逐 字 逐 句 地 认真 阅读 以 外 ， 还 必须 要 付 诸 实践 。 把 作者 描 
述 的 过 程 、 方 法 和 注意 事项 在 实际 中 应 用 一 遍 ， 哪 伯 是 做 一 道 Kaggle 竞赛 试题 或 重复 一 饥 
别人 已 经 完成 的 任务 ， 都 是 不 错 的 选择 。 记 住 ， 重 要 的 是 “做 一 遍 ”， 而 不 仅仅 是 “看 一 
遍 ”! 有 了 这 些 “ 应 用 基础 ”之 后 ， 再 回头 学 习 机 器 学 习 的 基本 理论 和 数学 基础 就 比较 容易 
了 。 众 话说 ,“ 万 事 开 头 难 "， 只 要 入 了 门 ， 一 切 都 好 办 了 。 圳 心 希 望 大 家 都 能 通过 本 书 成 
为 机 器 学 习 的 高 手 和 巨人 。 

在 翻译 过 程 中 得 到 了 来 自 各 方面 的 帮助 ， 数 理 部 的 孙 静 波 老师 和 商学 院 的 王 灿 老师 在 统 
计 学 方面 给 予 了 大 量 帮 助 ; 公共 外 语 教学 部 的 蒋 彩 艳 老师 ， 在 英美 习惯 用 法 和 个 别 翻译 中 给 
予 了 一 定 帮 助 ， 在 此 表示 感谢 ! 

虽然 在 翻译 过 程 中 ， 经 过 反复 思考 ， 力 图 传达 作者 确切 的 意图 ， 但 由 于 译 者 水 平 有 限 ， 
错误 下 漏 之 处 在 所 难免 ， 望 各 位 读者 、 专 家 和 业内 人 士 不 音 提出 宝贵 意见 。 





















































程 继 洪 
于 烟台 南山 学 院 
2017 年 2 月 


关于 本 书 

《实用 机 可 学 习 》 的 读者 对 象 是 针对 想 要 把 机 屁 学 习 应 用 于 实际 问题 的 人 。 它 详细 阐述 

了 机 品 学 习 的 主要 组 成 部 分 : 工作 流程 、 算 法 和 工具 。 关 注 点 是 著名 算法 的 实际 应 用 ， 而 不 

是 创建 一 个 算法 。 构 建 和 使 用 机 器 学 习 模 型 的 每 个 步骤 都 有 详细 描述 ， 并 有 从 简单 到 中 等 复 
杂 的 实例 与 之 对 应 。 


主要 内 容 





第 1 部 分 ,“ 机 器 学 习 工 作 流 程 ” 介 绍 基本 的 机 器 学 习 工作 流程 ， 并 分 章节 对 每 个 步 又 
加 以 介绍 。 

第 1 章 ,“ 什 么 是 机 器 学 习 ” 介 绍 机 器 学 习 的 应 用 领域 和 用 途 。 

第 2 章 ,“ 实 用 数据 处 理 ” ， 详 细 介绍 机 器 学 习 流 程 中 的 数据 处 理 和 准备 工作 。 

第 3 章 ,“ 建 模 和 预测 ”， 介 绍 构建 简单 的 机 器 学 习 模型 ， 并 利用 应 用 广泛 的 算法 和 库 
进行 预测 。 

第 4 章 ,“ 模 型 评估 和 优化 " ， 深 入 研究 机 器 学 习 模 型 ， 并 对 其 进行 评估 和 性 能 优化 。 

第 5 章 ,“ 基 础 特征 工程 ”， 介 绍 利用 领域 知识 对 原始 数据 进行 提高 的 常用 方法 。 

第 2 部 分 ,“ 实 际 应 用 ”， 介 绍 模型 规模 化 和 从 文本 、 图 片 和 时 间 序 列 数据 中 提取 特征 
的 技术 ， 来 提高 绝 大 多 数 现代 机 器 学 习 的 性 能 。 本 部 分 包括 3 个 有 完整 实例 的 章节 。 

第 6 章 ,“ 实 例 : NYC 出 租车 数据 ”， 这 是 第 一 个 完整 实例 章节 ， 会 预测 乘客 的 倾向 性 

行为 





第 7 章 ,“ 高 级 特征 工程 ”， 包 含 高 级 特征 工程 过 程 ， 介 绍 从 自然 语言 的 文本 、 图 片 和 
时 序 序列 数据 中 提取 有 价值 的 数据 。 

第 8 章 , “NLP 高 级 案例 : 电影 评论 情感 预测 ”， 运 用 高 级 特征 工程 知识 预测 在 线 电 影 
评论 的 情感 。 

第 9 章 ,“ 扩 展 机 器 学 习 流程 ”， 介 绍 扩大 机 器 学 习 系 统 的 数据 规模 、 预 测 吞 吐 量 和 降 
低 预 测 间隔 的 技术 。 
第 10 章 ,“ 案 例 : 数字 显示 广告 ” ， 构 建 大 型 数据 的 模型 ， 预 测 数字 广告 点 击 行为 。 


如 何 使 用 本 书 


如 果 你 是 机 器 学 习 新 手 ， 第 1 ~5 章 将 引导 你 学 习 人 研究 和 准备 数据 、 特 征 工程 、 建 模 和 
W 























模型 评估 过 程 。Python 实例 采用 流行 的 数据 处 理 、pandas 和 Scikit - Learn 机 器 学 习 库 。 第 
6~10 章 ,包括 3 个 实际 机 器 学 习 案 例 、 高 级 特征 工程 和 优化 的 话题 。 由 于 学 习 库 封装 了 大 
部 分 的 复杂 性 ， 因 此 代码 示例 可 以 很 容易 地 应 用 到 你 自己 的 机 融 学 习 系 统 中 。 


目标 读者 











本 书 可 以 使 程序 员 、 数 据 分 析 师 、 统 计 学 家 、 数 据 科 学 家 和 其 他 专业 人 士 将 机 器 学 习 应 
用 于 实际 问题 ， 或 者 简单 地 理解 它 。 他 们 将 获得 实用 数据 建 模 、 优 化 和 开发 机 器 学 习 系 统 的 
经 验 ， 而 没 必 要 了 解 特定 算法 的 理论 推导 。 机 带 学 习 的 数学 基础 是 针对 感 兴 趣 的 人 的 ， 某 些 
算法 在 较 高 的 层次 上 进行 解释 ， 本 书 提供 给 那些 想 深 入 学 习 的 人 ， 我们 的 焦点 是 获得 实际 结 
果 以 解决 手头 的 问题 。 


























代码 约定 ， 下 载 和 软件 需求 


本 书包 含 许多 示例 源 代码 ,或 者 以 编号 的 清单 出 现 ， 或 者 岁入 在 正文 中 ， 但 无 论 哪 种 情 
况 ， 都 以 固定 宽度 的 这 种 字体 显示 ， 以 区 别 于 正常 的 文本 。 

源 代码 使 用 Python ，pandas 和 Scikit - Learn 编写 。 与 章节 相应 的 iPython 笔记 文件 可 在 
GitHub 上 下 载 ， 地 址 为 https ://github. com/brinkar/real - world - machine - learning ,也 可 以 通 
过 关注 机 械 工业 出 版 社 计算 机 分 社 官方 微 信 订阅 号 “IT 有 得 聊 ” ,输入 5 位 数 号 “56922” 后 获 
得 资源 下 载 链接 ,还 可 以 登录 golden-book. com 搜索 本 书 并 进行 下 载 。 

笔记 文件 (扩展 名 为 . ipynb ) 与 章节 相对 应 。 样 本 数据 包含 在 data 文件 夹 中 ,只 要 必需 的 
库 随 iPython 一 起 安装 ,那么 所 有 的 笔记 文件 都 能 执行 。 图 形 由 matplotlib 和 Seaborn 的 pyplot 
模块 生成 。 

在 有 些 情况 下 ,由 让 ython 产生 的 图 形 被 提取 出 来 作为 本 书 的 插图 (为 了 适应 打印 质量 和 
电子 书 显示 ,有 些 已 经 做 了 修改 ) 。 
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作者 人 简介 

Henrik Brink( 享 里 克 ' 布 林 克 ) 是 一 名 数据 科学 家 ,对 应 用 机 器 学 习 进 行 工 业 和 学 术 应 用 
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Joseph Richards( 约瑟夫 W. 理 查 效 ) 是 一 位 资深 的 数据 科学 家 ,具有 应 用 统计 和 预测 分 析 
方面 的 专业 知识 。Henrik 和 Joseph 是 Wise. io 的 联合 创立 者 ,Wise. io 是 一 家 提供 工业 机 器 学 
习 解 决 方案 的 开发 商 。 

Mark Fetherolf( 马克 . 弗 特 罗 夫 ) 是 数据 管理 和 预测 分 析 公 司 Numinary Data Science 的 创 
始 人 和 总 裁 。 他 曾 在 社会 科学 研究 .化 学 工程 .信息 系统 性 能 、 容 量规 划 有 线 电 视 和 在 线 广告 
应 用 等 方面 担任 统计 师 和 分 析 数 据 库 开发 人 员 。 











关于 封面 插图 


《实用 机 器 学 习 》 封 面 插 图 标题 为 “< 中国 战士 (ChinoisCombattant) ”或 “中 国武 士 (Chinese 
fighter)”。 插图 取 自 19 世纪 法 国 出 版 的 Sylvain Maréchal 编撰 的 《区 域 服 饰 习俗 第 四 卷 》, 其 中 
的 每 幅 图 都 是 精心 绘制 并 手工 着 色 。Maréchal 丰富 的 收藏 给 我 们 生动 地 展示 了 200 年 前 不 同 
城市 和 地 区 的 文化 差异 。 由 于 相互 隔离 ,人 们 说 着 不 同 的 方言 和 语言 。 无 论 在 城市 的 街道 .小 
城镇 或 乡村 ,都 可 以 很 容易 地 通过 他 们 的 穿着 分 辨 出 他 们 在 哪里 生活 以 及 他 们 的 生活 习惯 。 

服饰 密码 从 那 时 起 已 经 改变 ,那个 时 候 的 人 们 根据 区 域 和 阶级 的 不 同 拥有 的 服饰 特色 现 
在 已 经 逐渐 消失 。 现 在 人 们 已 经 很 难 通过 服饰 区 分 不 同 大 洲 的 居民 ,更 不 用 说 不 同 的 城镇 或 
地 区 了 。 也 许 我 们 已 经 将 文化 多 样 性 换 成 了 一 种 更 加 多 样 化 的 个 人 生活 一 一 当然 是 为 了 更 加 
多 样 化 和 快 节奏 的 科技 生活 。 

当 计算 机 图 书 多 到 无 法 区 分 时 ,本 书 采 用 Maréchal 的 两 世纪 以 前 的 区 域 生 活 的 多 样 性 图 
片 作为 图 书 封面 的 方式 ,庆祝 计算 机 图 书 的 创造 性 和 主动 性 。 
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第 1 部 分 
机 器 学 习 工 作 流程 


在 本 书 的 第 1 部 分 ， 将 介绍 基本 的 机 器 学 习 工 作 流 程 。 每 章 都 涵盖 流程 中 的 一 个 工作 


步骤 。 

第 1 章 ， 介 绍 机 器 学 习 的 用 途 ， 以 及 为 什么 要 阅读 本 书 。 

第 2 章 ， 研 究 基 本 机 器 学 习 流程 中 的 数据 处 理 ， 读 者 将 学 习 到 一 些 通用 方式 ， 从 现实 世 
界 和 纷乱 的 数据 中 清理 和 提取 有 价值 的 信息 。 

第 3 章 ， 随 着 一 些 模型 算法 及 其 应 用 的 学 习 ， 开 始 构建 简单 的 机 器 学 习 模型 。 

第 4 章 ， 深 入 研究 机 器 学 习 模 型 ， 并 对 它们 进行 评估 和 性 能 优化 。 

第 5 章 ， 和 致力 于 特征 工程 。 从 数据 中 提取 特征 是 构建 和 优化 机 器 学 习 系 统 的 重要 组 成 
部 分 。 


第 工 章 
什么 是 机 希 学 习 


讨 
澡 强 各 


™ 


章 导读 

e 机 器 学 习 基 础 。 

e 机 器 学 习 相 对 于 传统 方法 的 优点 。 
e@ 机 器 学 习 的 基本 流程 概述 。 

@ 提升 模型 性 能 的 高 级 方法 概述 。 
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1959 年 ，IBM 公司 的 计算 机 科学 家 亚 瑟 . 塞 缪 尔 编 写 了 一 个 跳棋 程序 ， 每 个 棋盘 位 置 
根据 胜出 的 可 能 赋予 一 个 数值 。 首 先 ， 该 数值 基于 一 个 公式 ， 该 公式 使 用 诸如 每 方 的 棋子 数 
和 国王 的 数目 作为 因数 ， 这 个 公式 起 到 了 作用 ， 使 塞 缪 尔 找到 了 提升 性 能 的 方法 。 他 让 程序 
和 自己 对 弈 ， 并 用 对 弈 结果 对 位 置 赋值 进行 精确 化 。 到 了 20 世纪 70 年 代 中 期 ， 此 程序 已 经 
拥有 相当 于 业余 棋 手 的 能 力 ” 。 

塞 织 尔 写 出 了 可 以 根据 经 验 提 升 自己 性 能 的 程序 ， 机 融 学 习 (Machine Learning, ML) 
随 之 诞生 。 

本 书 不 打算 描述 机 器 学 习 算 法 的 令 人 旦 惧 的 数学 细节 (虽然 对 于 常用 的 算法 ,我 们 也 
会 “ 疾 探 ” 它 的 内 部 工作 机 制 ) ， 而 是 针对 非 机 顺 学 习 专 家 在 实际 应 用 中 集成 机 需 学 习 给 出 
间 导 和 所 面临 的 挑战 。 在 第 1 章 中 ， 我 们 通过 一 个 真实 的 商业 问题 普 贷 审核 应 用 ,来 证 
明 机 器 学 习 在 替代 常用 方法 时 所 具有 的 优势 。 





























1.1 理解 机 器 学 习 


当 讨 论 人 类 学 习 时 ,我们 会 对 死记 便 背 或 记忆 和 智力 进行 区 分 。 记 住 一 个 电话 号 码 和 一 
系列 指令 无 疑 是 学 习 ， 但 当 我 们 讨论 学 习 (learning ) 时 ， 通常 具有 更 广泛 的 意义 。 
当 孩 子 们 一 起 玩 丰 时， 他 们 都 会 观察 其 他 孩子 对 他 的 反应 ， 这 种 体验 形成 他 们 将 来 的 社会 行 


























”Jonathan Schaeffer， 领 先 一 步 电脑 跳棋 之 美 [ M1]. 纽约 : Springer，2009. 


为 。 他 们 的 过 去 不 会 重演 ,通常 和 他 们 交互 的 可 认识 的 特征 一 一 操场 ， 教 室 ， 妈 妈 ， 管 和 爸 ， 兄 
妹 ， 朋友 ,陌生 人 ,成 年 人 ,小 朋友 ,家 里 的 人 ， 外 面 的 人 ， 向 他 们 提供 一 些 暗示 ， 依 据 过 去 的 
经 验 对 新 的 情况 做 出 判断 。 他 们 的 学 习 不 仅仅 是 收集 知识 ， 而 是 构建 自己 的 洞察 力 (insight) 。 

想象 一 下 使 用 卡片 教 孩 子 认识 狗 和 猫 的 情景 ， 你 出 示 一 张 卡 片 ， 根 据 孩 子 的 选择 把 卡片 
放 在 正确 或 错误 的 位 置 上 。 随 着 孩子 的 练习 ， 他 的 表现 就 会 得 到 提升 。 有 趣 的 是 ， 没 必要 事 
先 教 孩子 认识 猫 和 狗 的 技巧 ， 因 为 人 类 的 认 知 内 建 分 类 机 制 ， 所 需要 的 只 是 样本 ( exam- 
ples) 。 随 着 孩子 对 卡片 的 熟悉 ， 他 不 仅 能 够 区 分 卡片 上 的 图 像 ， 还 能 够 区 分 绝 大 多 数 猫 和 
狗 的 图 片 ， 更 不 用 说 实物 了 。 这 种 以 经 验 获得 知识 ， 并 推广 到 未 知 的 概括 (generalize) 能 
力 ， 无 论 对 人 类 学 习 还 是 机 带 学 习 都 是 非常 关键 的 。 

当然 ， 人 类 学 习 远 比 最 先进 的 机 器 学 习 算 法 还 要 复杂 得 多 ， 但 计算 机 在 记忆 容量 、 
查找 和 数据 处 理 方面 更 有 优越 性 。 它 们 的 经 验 来 自 处 理 的 历史 数据 一 -使 用 本 书 描述 的 
技术 一 一 通过 经 验 创造 和 优化 实现 的 算法 。 如 果 这 不 能 算 作 真正 的 洞察 力 ， 则 至 少 也 是 
一 种 概括 能 

人 类 和 机 器 学 习 非 常 相 似 ， 以 至 于 使 我 们 联想 到 人 工 智 能 (Artificial Intelligence，AI) 
这 个 术语 和 一 个 非常 明显 的 问题 “人 工 智 能 和 机 顺 学 习 有 什么 区 别 ?” 关 于 这 个 问题 还 
没有 达成 共识 ,但 大 多 数 人 认为 机 带 学 习 是 人 工 智 能 的 一 种 ， 而 人 工 智 能 则 含义 更 广 ， 它 包 
括 机 器 人 技术 、 语 言 处理 和 计算 机 视觉 。 机 器 学 习 更 频繁 地 应 用 到 人 工 智 能 相关 的 领域 ， 使 
这 两 个 概念 的 区 别 更 加 模糊 。 我 们 可 以 这 么 说 ， 机 顺 学 习 的 训练 指 的 是 知识 的 特殊 形式 和 相 
互 关联 的 一 套 技术 。 可 以 很 清楚 地 说 机 器 学 习 是 什么 、 不 是 什么 , 但 对 人 工 智能 不 能 这 么 
说 。 引 用 汤姆 . 米 契 尔 的 定义 ， 如 果 计 算 机 程序 对 于 某 个 任务 ， 它 的 性 能 能 够 通过 可 计算 的 
值 进行 衡量 ， 并 能 通过 经 验 得 到 提高 ， 我 们 就 称 之 为 学 习 ” 。 

“对 于 某 类 任务 T 和 性 能 度量 P， 如 果 一 个 计算 机 程序 在 T 上 以 了 衡量 的 性 能 随 着 经 验 
E 而 自我 完善 ， 那 么 我 们 称 这 个 计算 机 程序 从 经 验 下 学习。” 

机 器 学 习 顾 问 凯 格 ， 进 行 了 程序 精确 识别 狗 和 猫 的 图 片 的 比赛 ?。 参 加 者 使 用 提供 的 
25 ，000 张 打 了 标记 的 样本 图 片 训练 各 自 的 算法 ,然后 通过 12，500 张 未 标记 的 图 片 测试 他 
们 的 程序 识别 能 

当 我 们 向 人 们 解释 凯 格 的 比赛 时 ， 他 们 首先 想到 的 是 成 功 识别 狗 和 猫 的 一 套 规则 。 猫 的 
耳 打 呈 同 三 角形 而 且 是 直立 的 ; 狗 的 耳 条 是 下 垂 的 一 一 但 并 不 总 是 如 此 。 试 想 一 下 ， 对 于 一 
个 从 来 没 见 过 狗 或 猫 的 人 ， 在 没有 样本 的 情况 下 你 如 何 教 他 区 分 。 

人 们 对 样本 使 用 形状 、 颜 色 、 质 地 、 比 例 和 其 他 特征 进行 学 习 和 归纳 。 机 器 学 习 根 据 要 
解决 的 问题 ， 使 用 一 系列 策略 或 策略 组 合 进 行 学 习 。 

这 些 策略 体现 在 近 十 几 年 间 学 者 和 从 业者 开发 的 算法 ， 涵 盖 统 计 学 、 计 算 科 学 、 机 器 人 
科学 和 应 用 数学 ， 应 用 于 在 线 搜索 、 娱 乐 、 数 字 广告 和 话 言 翻译 。 它 们 各 有 优 缺 点 ， 有 一 些 




































































@ 汤姆 . 米 契 尔 . 机 器 学 习 [M]. McGraw Hill，1997. 
外 见 “ 狗 和 猫 识 别 比 赛 ”， 地 址 为 www. kaggle. com/c/ dogs -vs - cats。 
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是 分 类 器 ， 另 一 些 对 数值 测量 进行 预测 ， 还 有 一 些 对 可 比较 实体 〈 例 如 ， 人 、 机 器 、 处 理 
过 程 、 猫 和 狗 ) 辨别 异同 。 它 们 的 共同 特性 是 从 样本 (经验 ) 学 习 ， 并 应 用 到 新 的 未 知情 
况 一 一 都 具备 概括 归纳 能 

在 猫 和 狗 的 识别 比赛 中 ， 学 习 阶 段 参加 者 尝试 了 许多 算法 进行 正确 的 分 类 。 在 几 万 
次 的 学 习 中 ， 程 序 执行 分 类 算法 ， 评 测 结果 ， 然 后 进行 细微 的 调整 并 取得 一 定 的 进步 。 
获胜 者 对 于 未 知情 况 分 类 的 准确 率 达 到 98.914% 。 考 虑 到 人 的 错误 率 大 约 7% ， 这 个 结 
已 经 非常 不 错 了 。 图 1-1 示 出 了 这 一 过 程 。 机 器 学 习 分 析 已 标记 的 图 片 并 构建 模型 ， 然 
后 用 于 识别 未 标记 的 图 片 。 在 示例 中 只 有 一 个 猫 的 图 片 标记 错误 。 








标记 的 
训练 数据 







未 标记 的 
测试 数据 


_ 几 国 也 


机 器 学 习 标记 
的 测试 数据 








狗 X。 狗 W 


图 1-1 犹 和 狗 识 别 比赛 的 机 器 学 习 过 程 


注意 ,我们 这 里 描述 的 是 带 有 监督 机 制 的 机 器 学 习 ， 这 不 只 是 机 顺 学 习 特 有 的 类 型 。 稍 
后 我 们 讨论 其 他 类 型 的 机 器 学 习 。 

机 器 学 习 可 广泛 地 应 用 于 商业 领域 ， 从 欺诈 检测 到 客户 定位 、 产 品 推荐 、 实 时 工业 监 
控 、 和 情感 分 析 和 医疗 诊断 。 可 解决 数据 量 巨大 而 不 能 手工 处 理 的 问题 ， 对 于 大 数据 量 应 用 ， 
机 需 学 习 有 时 可 发 现 数据 之 间 微 妙 的 联系 ， 而 这 种 联系 在 人 工 审查 时 很 难 发 现 。 当 这 些 
“微弱 ”联系 组 合 在 一 起 时 ， 就 变 成 了 强大 的 预测 器 

从 数据 中 学 习 ， We 
正 迅 速成 为 推动 现代 “数据 驱动 经 济 ”发 展 的 强力 引擎 














表 1-1 描述 了 监督 机 器 学 习 技术 的 广泛 应 用 和 某 些 实际 应 用 ， 这 并 不 全 面 ， 因 为 潜在 
的 应 用 有 可 能 几 页 纸 都 写 不 完 。 
表 1-1 监督 机 制 机 器 学 习 应 用 实例 ， 按 解决 问题 的 类 型 分 类 
问题 描述 应 用 实例 

































































垃圾 邮件 过 滤 、 情 感 分 析 、 其 诈 检 测 、 客 户 广告 定位 、 流 失 预 测 、 支 
:于 输 定 每 个 输 1 

分 类 | 人 站 生计 站 人 于 夺 四 | 持 案 例 标记 、 内 容 个 性 化 、 制 造 缺 陷 检 测 、 客 户 细 分 、 事 件 发 现 、 基 因 
学 、 药 效 学 

| | 基于 输入 预测 每 个 输入 的 实际 | 股票 市 场 预测 、 需 求 预测 、 价 格 信 计 、 广 告 训 价 优化 、 风 险 管 理 、 交 

| 输出 产 管理 、 天 气 预报 、 优 育 预 测 
推荐 “| 预测 用 户 喜欢 的 方案 产品 推荐 、 工 作 招聘 、Netlix 奖金、 在 线 约会 、 内 容 推荐 
前 补 。 | 对 于 缺失 的 数据 推断 其 价值 “| 不 完整 的 医疗 记录 、 客 户 数据 缺失 、 人 口 数据 普查 




















输入 数据 


1.2 使 用 数据 进行 决策 


在 接 下 来 的 例子 中 ,我们 介绍 一 个 从 机 器 学 习 获 利 .和 
的 真实 问题 。 我 们 将 介绍 各 种 常用 的 可 选 方案 ， 从 而 证 1 
明 机 器 学 习 是 最 好 的 方法 。 

假定 你 掌管 着 一 个 小 型 借贷 公司 ， 向 陷入 困境 的 个 EY 
人 小 型 企业 贷款 。 早期， 公司 每 周 收 到 为 数 不 多 的 申 全 
请 ， 你 可 以 用 几 天 的 时 间 人 工 审核 每 个 请 求 ， 并 对 每 位 
申请 人 进行 背景 调查 ， 以 决定 是 否 放款 ， 这 个 流程 的 示 
意图 如 图 1-2 所 示 。 早 期 的 客户 对 你 的 反应 时 间 和 服务 
十 分 满意 ， 公 司 的 名 誉 也 不 肥 而 走 。 

随 着 公司 的 声名 更 起 ， 申 请 的 人 越 来 越 多 ， 很 快 就 
达到 每 周 收 到 几 百 份 申请 的 水 平 。 对 于 这 些 猛 增 的 申请 
你 企图 加 班 加 点 完成 它 ， 但 等 待 办 理 的 还 是 越 来 越 多 。 
某 些 申 请 人 在 焦虑 等 待 的 过 程 中 可 能 会 转投 到 你 的 竞争 
对 手 那 里 。 很 明显 企图 人 工 处 理 每 个 申请 不 是 一 个 好 的 


是 否 
办 法 ， 坦 率 地 说 ， 承 受 这 样 的 压力 不 值得 。 
以 加 快 申请 审核 来 适应 不 断 增长 的 业务 需求 。 图 1-2 微型 贷款 的 审批 流程 
1.2.1 传统 方法 


先 让 我 们 介绍 用 于 申请 审核 的 两 种 方法 : 人 工分 析 和 商业 规则 。 对 于 每 种 方法 ， 我 们 详 
细 分 析 其 实现 技术 并 突出 它 不 能 达到 你 扩展 业务 的 目的 。 

雇佣 更 多 的 分 析 员 

你 决定 雇佣 其 他 的 分 析 员 把 你 解脱 出 来 。 你 对 花 钱 雇 个 新 人 不 感 兴趣 ， 而 是 想 和 男 一 个 
人 共同 审核 贷款 申请 ， 这 样 你 就 可 以 在 相同 的 时 间 里 处 理 大 约 两 倍 的 申请 。 这 个 新 的 分 析 员 
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“账户 存款 



































可 以 帮 你 把 一 周 内 积压 的 申请 处 理 完 毕 。 
起 初 的 几 周 ， 你 们 两 个 加 班 加 点 ， 但 申请 数量 仍然 持续 增长 ， 在 短 短 的 一 个 月 里 增长 到 每 
周 1000 份 申请 。 为 了 跟 上 申请 增长 的 速度 ， 你 必须 雇佣 两 个 以 上 的 分 析 员 。 随 着 业务 的 发 展 ， 
这 种 增加 雇员 的 方法 并 不 能 解决 持续 发 展 的 问题 : 所 有 新 增 贷款 的 收益 全 都 用 于 了 新 增 的 雇佣 
人 员 ， 而 没有 用 于 关键 的 微型 借贷 基金 。 按 照 申请 的 增加 雇佣 更 多 的 人 员 ， 这 种 方式 阻碍 了 你 
的 业务 发 展 。 更 重要 的 是 ， 你 发 现 招聘 过 程 既 耗费 输入 数据 
时 间 又 耗费 金钱 ， 进 一 步 前 减 了 你 的 商业 利益 。 最 
后 ， 新 雇佣 的 人 在 处 理 贷款 申请 时 因 人 缺乏 经 验 而 比 









































其 他 人 要 慢 ， 团 队 管理 的 压力 也 使 你 感到 焦虑 。 二 
除了 开销 增加 的 上 棘 端 外 ， 人 工 处 理 还 带 来 了 有 * 婚 仙 状 训 
意 无 意 的 主观 偏见 。 为 了 确保 申请 处 理 的 一 致 性 ， .职业 
你 对 审批 过 程 研发 一 套 指导 规则 并 对 新 员工 进行 培 
训 ， 但 这 增加 了 开销 并 且 可 能 无 法 消除 这 种 偏见 。 
采用 商业 规则 We 
想象 一 下 ，1000 份 贷款 已 超过 偿还 日 期 ，70% .账户 年 肯 


按时 偿还 ， 如 图 1-3 所 示 。 。 账 户 存款 

现在 你 必须 注意 贷款 申请 和 偿还 之 间 的 关系 
了 。 特 别 是 ， 你 经 过 人 工 调 查 得 到 一 系列 过 滤 规 
则 ， 过 滤 出 一 批 “ 优 良 ” 信 贷 可 以 按时 偿还 。 通 过 
对 几 百 个 贷款 申请 的 人 工分 析 ， 得 到 了 判断 借贷 信 
誉 好 坏 的 丰富 经 验 ?。 通 过 反思 和 回溯 测试 还 款 状 
况 ， 你 注意 到 信用 背景 调查 数据 的 几 个 趋势 ” ; 

。 大 多 数 的 贷款 超过 7500 美元 信贷 额度 的 借 


款 人 拖欠 。 
。 大 多 数 没 有 文 票 账户 的 借款 人 按时 偿还 
贷款 。 





现在 你 可 以 通过 这 两 条 规则 设计 一 套 过 滤 机 
制 ， 削 减 人 工 处 理 的 贷款 申请 的 数量 。 

你 首先 要 过 滤 信 用 额度 超过 7500 美元 的 借贷 图 1-3 经 过 几 个 月 运作 ， 收 到 2，500 份 贷 
请 求 。 通 过 分 析 历史 数据 ， 发 现 信用 额度 超过 7500 款 申请 ， 批 准 了 1000 份 ， 其 中 700 份 申 请 及 
美元 的 86 个 信贷 申请 中 有 44 个 拖欠 还 款 。 与 剩 下 四 代 还 ，300 份 贷款 移入 。 这 学 初始 数 据 对 
的 28% 相 比 ， 大 约 51% 的 高 额 信贷 申请 拖欠 。 这 于 构建 贷款 评估 体系 是 至 关 重 要 的 
看 起 来 好 像 是 排除 高 风险 信贷 的 好 方法 ， 但 你 很 快 就 会 发 现在 信贷 申请 中 只 有 8. 6% (1000 





拖欠 : 300 份 

















外 你 可 以 使 用 统计 相关 性 确定 哪些 数据 因素 与 贷款 偿还 结果 相关 。 
外 在 本 例 中 ,我 们 使 用 德国 信贷 数据 集 。 你 可 在 http://mng. bz/95M 下 载 该 数据 。 
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个 中 有 86 个 ) 的 申请 属于 高 额度 贷款 ， 这 就 意味 着 你 还 必须 人 工 处 理 超 过 90% 的 贷款 申 
请 。 你 还 需要 更 多 的 过 滤 规 则 使 这 个 数字 降 到 合理 水 平 。 

你 的 第 二 个 过 滤 规 则 是 自动 接受 任何 没有 支票 账户 的 申请 人 。 这 看 起 是 相当 不 错 的 规 
则 ， 因 为 在 394 个 贷款 申请 中 有 348 个 〈88% ) 按时 偿还 了 贷款 。 加 上 这 第 二 条 规则 ， 可 以 
使 自动 被 接收 或 拒绝 的 申请 达到 了 45% 。 因 此 ， 你 只 需要 人 工分 析 大 约 一 半 的 申请 。 图 1-4 
所 示 显 示 了 这 些 过 滤 规 则 。 





















































拒绝 ;86 人 中 
44 人 (51%0) 拖 








接收 : 394 人 中 人 工分 析 : 
348 人 (88%) 1000 份 申请 中 
及 时 偿还 的 520 份 (52%) 






































图 1-4 使 用 两 条 商业 规则 可 使 你 只 需 处 理 新 增 申请 的 52% 


使 用 这 两 个 规则 ， 你 可 以 把 业务 扩大 到 原来 的 两 倍 而 不 必 雇 佣 其 他 人 员 ， 因 为 你 只 要 处 
理 新 增 申请 的 52% 。 另 外 ， 对 于 1000 份 已 知 结果 的 申请 ， 你 期 望 过 滤 规 则 错误 拒绝 率 在 
4.2% 左 右 〈 每 1000 份 申请 中 错误 拒绝 42 份 ) ， 错 误 接收 率 在 4. 6% 左右 〈 每 1000 份 申请 
中 错误 接收 46 份 ) 。 

随 着 业务 的 增长 ， 你 希望 系统 能 接收 或 拒绝 越 来 越 多 的 申请 ， 从 而 免 遭 拖欠 的 损失 。 为 
了 做 到 这 一 点 ， 你 必须 增加 新 的 商业 规则 ， 很 快 你 就 遇 到 了 以 下 几 个 问题 : 

e 人 工 发 现 有 效 的 过 滤 规 则 变 得 越 来 越 困 难 ， 这 不 是 不 可 能 的 ， 因 为 过 波 系 统 的 复杂 性 



































在 增加 。 
。 商业 规则 变 得 如 此 复杂 和 不 透明 ， 测试 它 们 ， 另 除 老 的 不 相关 的 规则 变 得 几乎 不 
可 能 。 


。 你 的 规则 构建 之 无 统计 学 严谨 性 。 你 虽然 非常 确信 更 好 的 分 析 数 据 能 得 到 更 好 的 “ 规 
则 ”， 但 又 不 能 肯定 。 

e 因为 贷款 偿还 模式 随 着 时 间 的 变化 而 变化 ， 或 许 随 着 申请 人 群 的 变化 而 变化 ， 规 则 系 
统 不 能 适应 这 种 变化 。 为 了 适应 这 种 变化 ， 规 则 系统 必须 不 断 地 调整 。 

所 有 商业 规则 方法 的 缺陷 可 归结 一 个 弱点 : 规则 系统 不 能 从 数据 中 自动 学 习 。 

数据 驱动 的 系统 ， 从 简单 的 统计 学 模型 到 复杂 的 机 咒 学 习 都 可 克服 这 些 问题 。 











1.2.2 机 如 学 习 方 法 


最 终 ， 你 决定 在 微型 信贷 申请 评 佑 过程 中 采用 全 自动 、 数 据 驱 动 的 决策 方法 。 机 器 学 习 
是 一 个 不 错 的 选择 ， 因 为 它 的 处 理 过 程 是 全 自动 的 ， 可 以 适应 不 断 增长 的 业务 需要 。 男 外 ， 
它 不 同 于 商业 规则 ， 机 器 学 习 直 接 从 数据 中 学 习 最 优 的 决策 而 不 是 任意 的 编写 好 的 决策 规 
则 。 这 种 从 基于 规则 到 基于 机 器 学 习 的 决策 过 渡 意 味 着 你 的 决策 更 加 精确 ， 而 且 随 着 借贷 的 
增多 ， 精 确 性 会 得 到 提高 。 可 以 确信 你 的 机 带 学 习 系 统 可 用 最 少 的 处 理 换 来 优化 的 决策 。 

在 机 融 学 习 中 ， 数 据 为 获得 关于 手头 问题 的 见解 提供 了 基础 。 为 了 确定 是 否 接收 每 个 新 
的 贷款 申请 ， 机 咒 学 习 使 用 历史 训练 数据 来 预测 应 采取 的 最 佳 行动 。 为 了 启动 机 器 学 习 用 于 
贷款 审批 ， 你 可 以 把 已 掌握 的 1000 份 借贷 数据 作为 训练 样本 。 训 练 样本 由 每 个 贷款 的 输入 
数据 和 是 否 及 时 偿还 的 结果 组 成 。 输 入 数据 由 一 系列 数值 或 分 类 指标 组 成 ， 用 于 捕获 每 个 申 
请 中 相关 的 方面 ， 如 申请 人 的 信用 指数 、 性 别 和 职业 等 。 

图 1-5 示 出 了 历史 数据 训练 机 器 学 习 的 模型 。 在 收 到 新 的 借贷 申请 时 ， 从 申请 数据 中 
可 立即 预测 出 将 来 可 能 的 偿还 情况 。 

已 标记 的 训练 数据 : 历史 贷款 申请 
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图 1-5 基本 机 器 学 习 的 工作 流程 〈 以 微型 贷款 为 例 ) 


机 器 学 习 模 型 决定 对 于 每 个 贷款 申请 如 何 用 于 最 佳 的 贷款 预测 。 通 过 查找 并 使 用 训练 集 
中 的 模式 ， 机 器 学 习 将 产生 一 个 模型 (现在 你 可 以 认为 这 是 一 个 黑 盒 ) ， 用 于 根据 申请 者 的 
数据 预测 每 个 申请 的 结 

下 一 步 是 选择 要 使 用 的 机 器 学 习 算 法 。 机 器 学 习 的 类 型 有 很 多 ， 从 简单 的 统计 模型 到 更 
复杂 的 方法 都 有 。 在 此 我 们 比较 两 个 例子 : 第 一 个 是 简单 参数 化 模型 ， 第 二 个 是 分 类 树 的 非 
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参数 集合 。 不 要 被 这 些 术 语 所 困扰 ， 你 很 快 就 会 发 现 ， 机 器 学 习 使 用 很 多 算法 和 方式 对 它们 
进行 分 类 。 

几乎 所 有 传统 的 统计 商业 模型 都 属于 第 一 类 。 这 些 参数 化 模型 使 用 简单 固定 的 方程 来 表 
示 输 入 和 结果 的 关系 。 数 据 用 于 学 习 这 些 方程 中 未 知 项 的 最 佳 的 值 。 例 如 ， 线 性 回归 、 逻 辑 
回归 和 自 回 归 模型 都 属于 这 一 类 。 回 归 模型 将 在 第 3 前 详细 描述 。 

在 本 例 中 ， 你 可 以 使 用 逻辑 回归 来 模拟 贷款 审核 流程 。 在 逻辑 回归 中 ， 每 一 笔 贷款 的 偿 
还 概率 的 对 数 (对 数 概率 ) 被 建 模 为 一 个 输入 特征 的 线性 函数 。 例 如 ， 如 果 一 个 新 的 申请 
包含 3 个 相关 特征 一 一 申请 人 的 信用 额度 、 学 历 和 年 龄 ， 那 么 逻辑 回归 试图 用 这 个 方程 预测 
申请 人 将 会 拖欠 的 对 数 概率 (我们 称 之 为 y) : 


申请 人 偿还 贷款 
的 对 数 概率 常数 























= Bot+ Bix Credit_Line+ Bx Education_Level+ B3xAge 


系数 


对 数 概 率 

发 生 率 是 描述 概率 的 一 种 方式 。 你 一 定 听 过 菜 人 说 他 喜欢 的 球 队 获胜 的 可 能 是 3: 1。 
事件 的 发 生 率 是 成 功 ( 如 赢得 比赛 ) 的 概率 除 以 失败 (如 给 掉 比 赛 ) 的 概率 。 数 学 上 可 
以 这 样 表示 : 

Odds(A) =P(A)/P( ~A) =A 的 概率 除 以 非 A 的 概率 


因此 ，3:1 就 等 价 于 0.75/0.25 =3, log(3) =0.47712… 

如 果 A 为 抛 拨 一 枚 硬币 ， 那 么 正面 向 上 的 概率 将 是 0.5/0.5 =1，log(1) =0。 可 以 
证 明 log( 0dds) 可 接收 任意 实数 参数 。 对 数 概率 的 值 接近 - oo 表示 不 可 能 事件 ， 接 近 w 
表明 确定 发 生 , 而 log(1) =0 表明 为 随机 事件 。 使 用 对 数 概率 而 不 使 用 标准 的 概率 是 一 
种 数学 技巧 ， 它 使 计算 变 得 简单 。 它 不 像 概率 被 限制 在 0 ~1 之 间 。 





方程 中 每 个 系数 (在 本 例 中 为 B。、B, 、Bs, 和 B;) 的 最 佳 数值 是 从 1000 个 训练 样本 中 
学 习 获 得 的 。 

当 你 可 以 使 用 像 这 样 的 方程 表示 输入 和 输出 之 间 的 关系 时 ， 从 输入 〈 信 用 额度 、 学 历 
和 年 龄 ) 预测 输入 〈y) 是 非常 简单 的 。 你 所 要 做 的 就 是 使 用 历史 数据 找 出 哪些 B, 、B, 和 
B; 的 值得 到 的 输出 结果 最 佳 。 

但 当 输 入 与 输出 间 的 关系 比较 复杂 时 ， 像 逻辑 回归 这 样 的 模型 应 用 就 会 受到 限制 。 例 
如 ,使 用 图 1-6 左 侧 图 中 的 数据 集 ， 有 两 个 特征 输入 ， 任 务 是 把 每 个 数据 点 分 成 两 类 。 这 
两 类 由 非 线 性 曲线 (决策 边界 ， 如 图 中 的 曲线 所 示 ) 分 离 在 独立 的 二 维特 征 空间 中 。 中 间 
图 所 示 是 该 数据 集 应 用 逻辑 回归 模型 的 结果 。 逻 辑 回 归 基 于 一 条 直线 分 成 两 个 区 域 ， 从 而 导 
致 许多 分 类 错误 (许多 点 划分 在 错误 的 区 域内 ) 。 
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图 1-6 在 两 类 分 类 中 ， 单 个 数据 点 要 么 属于 圆 形 类 要 么 属于 方形 类 。 这 些 分 布 在 二 维特 征 空 

间 中 的 数据 由 非 线性 决策 边界 进行 划分 ， 如 图 中 曲线 所 示 。 然 而 ， 简 单 统计 模型 数据 分 类 精确 
性 比较 低 〈 中 图 ) ， 机 器 学 习 模型 〈 右 图 ) 以 少许 代价 即 可 发 现 正确 的 分 类 边界 


中 间 图 所 示 的 模型 问题 在 于 企图 以 简单 的 参数 化 模型 解释 复杂 的 非 线 性 的 现象 。 参 数 化 
和 非 参 数 化 模型 的 形式 化 定义 很 复杂 ， 而 且 对 于 本 书 而 言 太 过 数学 化 。 但 最 根本 的 是 ， 参 数 
化 模型 在 你 提前 理解 输入 和 需要 的 输出 之 间 的 关系 时 能 工作 得 很 好 。 如 果 对 非 线 性 关系 有 充 
分 的 了 解 ， 则 可 以 对 输入 或 输出 变量 进行 转换 ， 以 便于 参数 化 模型 仍 能 继续 工作 。 例 如 ， 如 
果 某 些 疾 病 在 老年 群体 中 发 病 率 较 高 ， 你 可 能 发 现 发 病 率 和 研究 主体 年 龄 的 平方 存在 线性 关 
系 。 但 问题 在 实际 应 用 中 ， 并 不 容易 找到 这 种 转换 关系 。 

你 需要 更 灵活 的 模型 ， 它 可 以 自动 发 现 复杂 的 趋势 和 数据 结构 ， 而 不 必 事 先知 道 关 系 模 
式 的 样子 。 这 正 是 非 参 数 化 机 器 学 习 算 法 的 用 武之 地 。 在 图 1-6 的 右 侧 图 中 ， 你 看 到 了 对 
这 个 问题 应 用 非 参数 化 学 习 算 法 (在 本 例 中 是 随机 森林 分 类 器 算法 ) 的 结果 。 很 显然 ， 预 
测 的 决策 边界 与 真实 边界 非常 接近 ， 所 以 分 类 精确 性 比 参 数 化 模型 要 高 。 

对 于 复杂 的 高 维度 的 数据 集 ， 非 参数 化 的 机 器 学 习 模 型 可 获得 很 高 的 精确 度 ， 因 此 成 为 许 
多 数据 驱动 问题 的 首选 。 非 参数 化 方法 的 实例 包括 许多 应 用 广泛 的 机 器 学 习 方法 ， 如 下 -近邻 
算法 (k - nearest neighbors)、 核 阴 数 平滑 (Kernel Smoothing)、 支 持 疝 量 机 (support vector 
machines) 、 决 策 树 (decision trees) 和 组 合 方法 (ensemble methods) 。 在 本 书 中 我 们 将 讲述 所 
有 这 些 方法 ， 并且 在 附录 中 给 出 了 重点 算法 的 简单 描述 。 线 性 算法 有 一 些 特性 ， 使 得 它们 在 茶 
些 场合 很 有 吸引 力 。 它 们 很 容易 解释 和 推理 ， 计 算 速 度 快 且 非 常 适 合 于 大 数据 处 理 。 


进一步 阅读 
加 雷 思 . 诬 姆 斯 等 编著 的 教科 书 《 统 计 学 习 导 论 》 (斯 普 林 格 出 版 社 ，2013 ) 对 机 













































































器 学 习 中 大 多 数 常用 方法 进行 了 详细 介绍 ， 而 且 是 针对 没有 统计 学 或 数学 基础 的 读者 。 
作者 网 站 上 (www. bcf usc. edu/ ~ gareth/ISL/) 可 获得 该 书 的 PDF 版 本 。 





回 到 微型 借贷 问题 ， 扩 大 商业 规模 的 最 好 选择 是 采用 一 个 非 参 数 化 的 机 器 学 习 模 型 。 这 
个 模型 能 够 发 现 和 手工 处 理 一 样 的 规则 ， 但 很 有 可 能 有 一 些 不 同 ， 因 为 需要 优化 统计 结果 。 
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更 有 可 能 的 是 ， 机 器 学 习 模 型 将 自动 发 现 你 没有 发 现 的 输入 变量 和 期 望 结果 之 间 的 其 他 更 深 
层次 的 关系 。 

除了 能 够 提供 自动 化 的 工作 流程 之 外 ， 你 还 能 获得 更 高 的 精确 度 ， 这 意味 着 更 大 的 商业 
价值 。 试 想 一 下 如 果 机 器 学 习 模 型 的 精确 度 比 逻 辑 回 归 模型 的 精确 度 高 23% ， 在 这 种 情况 
下 ， 机 器 学 习 模型 对 新 的 贷款 申请 将 有 更 低 的 错 判 率 ; 对 于 不 能 偿还 贷款 的 申请 接收 率 和 对 
于 能 够 偿还 贷款 的 拒绝 率 都 会 降低 。 总 而 言 之 ， 这 意味 着 贷款 的 回报 更 高 ， 能 够 使 你 增加 贷 
款 数 量 ， 从 而 创造 更 多 的 商业 价值 。 

我 们 希望 你 已 经 党 到 了 机 器 学 习 带 来 的 甜头 。 在 进一步 讨论 机 器 学 习 的 工作 流程 之 前 ， 
我 们 将 列 出 机 器 学 习 的 一 些 优 势 和 面临 的 挑战 。 

1.2.3 机 器 学 习 的 五 大 优势 

作为 微型 信贷 实例 的 总 结 ， 我 们 列 出 了 使 用 机 器 学 习 系 统 相 对 于 传统 替代 方案 ， 如 人 工 
分 析 、 商 业 规 则 和 简单 统计 模型 的 突出 优势 。 机 器 学 习 的 五 大 优势 如 下 : 

。 精确 一 机 器 学 习 使 用 数据 发 现 解决 问题 的 优化 的 决策 引擎 。 随 着 数据 的 增多 ， 精 确 

性 也 随 之 提高 。 
。 自动 化 一 一 由 于 结果 只 能 是 有 效 的 和 抛弃 的 ， 机 器 学 习 可 自动 学 习 新 的 模式 。 这 意味 
着 用 户 可 以 把 机 器 学 习 直 接 和 能 人 到 自动 工作 流 中 。 

。 迅速 一 机 器 学 习 可 以 在 新 数据 进入 的 几 毫 秒 内 产生 结果 ， 人 允许 系统 做 出 实时 反应 。 

e。 可 自 定义 一 许多 数据 驱动 的 问题 可 用 机 器 学 习 解 决 。 机 器 学 习 模型 通过 自己 的 数据 

构建 ， 并 可 用 任何 评价 标准 进行 优化 。 

。 规模 化 一 一 随 着 业务 的 不 断 发 展 ， 机 器 学 习 可 以 很 容易 地 处 理 数据 的 增长 问题 。 有 些 

机 器 学 习 算 法 可 以 使 用 云 计算 处 理 大 规模 数据 。 
1.2.4 面临 的 挑战 

要 获得 这 些 优势 必定 面临 一 些 挑战 。 根 据 商 业 问 题 的 大 小 和 形状 ， 其 难度 大 小 也 不 同 ， 
小 到 如 儿童 剧 一 样 简单 ， 大 到 如 汉 尼 拔 翻越 阿尔 卑 斯 山 一 样 困 难 。 

最 突出 的 困难 是 获取 可 用 形式 的 数据 。 据 估计 ， 数 据 科 学 家 80% 的 时 间 花 费 在 数据 准 
备 上 9。 你 一 定 听 说 过 当前 商业 捕获 的 数据 比 以 往 任何 时 候 都 要 多 得 多 ， 其 实数 据 科学 家 也 
是 。 你 可 能 还 听 说 过 这 些 数据 指 的 是 业务 处 理 的 “废弃 物 ”。 换 句 话说， 我 们 新 的 数据 宝 
不 是 用 来 设计 满足 机 器 学 习 系 统 的 输入 需求 。 从 这 些 废料 中 提取 有 用 数据 是 一 件 非 常 烦琐 和 
杂乱 的 工作 。 

相关 联 的 挑战 是 对 问题 进行 公式 化 表示 ， 以 便于 应 用 机 器 学 习 并 产生 可 操作 和 度量 的 结 
果 。 在 我 们 例子 中 目标 很 明确 : 预测 谁 可 以 偿还 贷款 ， 谁 会 拖欠 。 分 类 很 容易 实现 ， 结 果 也 
很 容易 度量 。 很 幸运 ， 某 些 实际 问题 是 这 样 简单 的 。 例 如 ， 给 定 我 们 知道 的 潜在 客户 的 信息 
















































































 ” 史 蒂 夫 洛 尔 . “对 于 大 数据 研究 者 而 言 ， 数 据 清 理工 作 是 获得 深层 理解 的 障碍 ” [N] . 纽约 时 报 ，2014 -8 - 17， 
http://mng. bz/7W8n. 
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(这 个 我 们 有 丰富 的 数据 ) ， 预 测 他 们 是 否 会 购买 我 们 的 产品 ， 这 是 很 容易 实现 的 。 

一 个 更 有 难度 的 例子 是 这 样 的 : 寻找 最 佳 媒体 和 广告 单位 组 合 ， 为 新 产品 提高 品牌 知名 
度 。 简 单 地 定制 问题 ,需要 构建 一 种 测量 品牌 知名 度 的 方法 ， 对 正在 考虑 的 替代 媒体 的 理 
解 ， 以 及 反映 替代 品 和 相关 结果 的 经 验 数据 。 

当 预 测 结果 相当 复杂 时 ， 选 择 算 法 以 及 如 何 应 用 是 非常 费力 的 。 心 脏 病 研究 人 员 要 预测 
术 后 并 发 症 ， 需 要 的 病人 数据 量 大 得 惊人 ,但 机 器 学 习 算 法 自然 不 需要 心电图 数据 和 DNA 
序列 。 特 征 工程 (feature engineering) 就 是 把 诸如 此 类 的 输入 转换 成 可 预测 的 特征 的 过 程 。 

如 果 不 提 到 和 危害 预测 模型 的 问题 ， 那 就 是 我 们 的 失职 : 如 果 一 个 模型 非常 适合 训练 数据 ， 
但 要 对 非 训 练 集 的 真实 数据 进行 预测 就 不 能 使 人 满意 ， 这 就 是 过 度 拟 合 问题 (overfitting) 。 

你 将 看 到 机 器 学 习 可 解决 各 种 各 样 的 问题 ， 有 些 比 其 他 办 法 更 容易 。 你 可 能 还 会 注意 到 
解决 方案 的 价值 与 花费 的 精力 并 不 成 正比 。 事 实 上 ， 机 器 学 习 并 不 是 万 能 的 金 钥匙 。 在 本 书 
中 ,你 将 看 到 机 器 学 习 对 于 解决 许多 现实 的 数据 驱动 的 问题 是 不 错 的 选择 。 


1.3 跟踪 机 器 学 习 流程 从 数据 到 部 署 


本 节 我 们 将 介绍 把 机 器 学 习 模 型 集成 到 个 人 的 应 用 或 数据 处 理 中 的 主要 流程 。 机 带 学 习 
流程 (ML workflow) 有 5 个 主要 组 成 部 分 : 数据 准备 、 模 型 构建 、 模 型 评 佑 、 模 型 优化 和 
新 数据 预测 。 这 些 步 又 有 内 在 的 顺序 ， 但 许多 实际 机 器 学 习 的 应 用 是 一 个 迁 代 过 程 ， 每 个 步 
又 都 要 重复 好 几 遍 。 这 5 个 部 分 在 第 2 ~4 章 将 详细 讨论 ， 但 我 们 在 此 做 简要 介绍 以 激发 读 
者 学 习 的 欲 彰 。 图 1-7 示 出 了 这 个 工作 流程 ， 后 面 的 部 分 对 这 些 概 念 做 了 全 面 说 明 。 这 个 
图 将 贯穿 本 书 ， 因 为 我 们 要 介绍 机 器 学 习 流 程 的 各 个 组 成 部 分 。 






















































































图 1-7 机 器 学 习 系 统 工作 流程 。 从 历史 数据 使 用 机 器 学 习 算 法 构建 模型 ， 然 后 需要 对 模型 的 
性 能 、 精 确 性 和 是 否 适 应 需求 规模 进行 优化 。 通 过 最 后 的 模型 可 以 进行 新 数据 预测 


1.3.1 数据 集合 和 预 处 理 


机 器 学 习 系 统 的 数据 收集 和 预 处 理 通 常 涉 及 数据 表格 化 (如果 数据 不 是 表格 数据 )。 数 
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据 表 格 化 可 认为 是 一 个 电子 表格 ,数据 以 行 和 列 的 形式 存储 ， 每 一 行 对 应 一 个 实例 (in- 
stance) 或 样本 (example) ， 每 一 列表 示 该 实例 的 一 个 度量 。 当 然 ， 可 能 有 一 些 特殊 和 变化 ， 
但 可 以 说 大 多 数 机 融 学 习 算法 需要 这 种 格式 的 数据 。 别 担心 ， 当 直到 这 种 特殊 情况 时 可 以 进 
行 处 理 。 图 1-8 示 出 了 这 种 格式 的 简单 数据 。 























图 1-8 在 表格 数据 集中 ， 行 称 为 样本 ， 列 表示 特征 

表格 数据 首先 要 注意 的 是 每 一 列 包 含 相同 类 型 的 数据 ， 而 行 数据 典型 地 可 包含 各 种 类 型 
的 数据 。 在 图 1-8 中 ， 有 4 种 类 型 的 数据 : 姓名 是 字符 串 变 量 ， 年 龄 是 整 型 变量 ， 收 入 是 单 
浮 点 型 变量 ， 婚 姻 状 况 为 分 类 变量 (包含 离散 的 分 类 值 ) 。 像 这 样 的 数据 集 称 为 异 构 数据 集 
(相对 于 同 构 数据 集 ) ， 在 第 2 章 我 们 将 解释 为 什么 以 及 如 何 将 这 种 类 型 的 数据 转换 成 其 他 
类 型 ， 这 与 使 用 的 机 顺 学 习 算法 有 关 。 

实际 数据 在 有 些 方面 是 比较 “混乱 ”的 。 假 定 在 数据 采集 阶段 ， 对 于 茶 个 样本 的 特定 
度量 不 可 获得 ， 也 没有 办 法 找到 相应 的 缺失 信息 。 在 这 种 情况 下 ， 表 格 中 将 包含 一 个 或 多 个 
缺失 值 (missing value) ， 这 将 给 后 面 的 建 模 和 预测 带 来 腑 烦 。 在 某 些 情况 下 ， 从 事 数据 采集 
的 人 对 于 数据 记录 这 样 重复 的 工作 很 容易 犯错 误 。 这 将 导致 某 些 错误 数据 ， 你 必须 能 够 处 理 
这 种 情况 ， 或 者 至 少 知道 特定 的 算法 在 误导 性 数据 存在 的 情况 下 表现 怎样 。 在 第 2 章 你 将 进 
一 步 学 习 如 何 处 理 缺 失 和 误导 性 数据 。 


1.3.2 数据 构建 模型 


成 功 构建 机 器 学 习 系 统 的 第 一 步 是 提出 一 个 可 由 数据 回答 的 问题 。 使 用 这 个 简单 的 申请 
人 表格 ， 你 可 以 构建 一 个 预测 申请 人 是 否 单身 的 机 器 学 习 模 型 。 例 如 ， 这 个 信息 对 于 显示 相 
关 广 告 的 时 候 很 有 用 。 

这 种 情况 下 ， 你 使 用 婚姻 状况 作为 目标 (target) 或 标记 (label) ， 剩 下 的 变量 作为 特征 
(features) 。 机 融 学 习 算 法 的 任务 就 是 如 何 从 一 系列 输入 特征 中 成 功 预 测 目标 。 那 么 对 于 婚 
姻 状 况 不 明 的 人 ， 你 可 以 基于 输入 的 特征 使 用 模型 预测 其 婚姻 状况 。 图 1-9 显示 了 在 试验 
数据 上 的 这 一 过 程 。 


















































特征 目标 










Jane Doe 


John Smith 








机 器 学 习 算法 : 


学 习 特 征 到 目标 的 映射 





图 1-9 机 器 学 习 建 模 过 程 


现在 可 以 把 机 器 学 习 算 法 看 作 实 现 从 特征 到 输出 数据 的 映射 的 黑 盒 。 为 了 构建 一 个 
有 用 的 模型 ， 你 需要 的 数据 比 两 行 多 得 多 。 与 其 他 常用 的 方法 相 比 ， 机 器 学 习 算法 的 一 
个 优点 是 可 以 处 理 许多 特征 。 图 1-9 只 显示 了 4 个 特征 ， 其 中 个 人 编号 和 姓名 在 预测 婚 
姻 状 况 时 可 能 是 无 用 的 。 有 些 算法 对 于 不 能 提供 信息 的 特征 是 相对 免疫 的 ， 然 而 如 果 把 
这 些 特征 省 略 则 可 产生 更 高 的 精度 。 第 3 章 将 详细 介绍 算法 类 型 和 它们 在 各 种 问题 和 数 
据 集 上 的 表现 。 

值得 注意 的 是 ， 有 时 也 可 以 从 这 些 貌 似 无 用 的 特征 中 提取 到 有 价值 的 信息 。 位 置 特征 本 
身 可 能 没什么 作用 ,但 可 导出 诸如 和 人口 密度 这 样 的 有 用 特征 。 这 种 类 型 的 数据 增强 称 作 特征 
提取 (feature extraction ) 5 在 实际 机 器 学 习 项 目 中 是 非常 重要 的 ， 这 也 是 第 5~7 章 的 主题 。 

有 了 机 器 学 习 模 型 ， 就 可 以 对 新 数据 一 一 目标 变量 未 知 的 数据 进行 预测 了 。 图 1-10 显示 
了 使 用 图 1-9 构建 的 模型 进行 预测 的 过 程 。 

没有 目标 的 新 数据 




















































































































机 器 学 习 模 型 : 





预测 新 数据 的 目标 





图 1-10 用 模型 对 新 数据 进行 预测 


返回 的 预测 目标 格式 与 进行 模型 学 习 的 源 数据 格式 相同 。 使 用 模型 进行 预测 可 看 作 新 数 
据 填补 空白 目标 的 过 程 。 有 些 机 器 学 习 算 法 可 以 输出 每 个 分 类 的 可 能 性 〈 概 率 ) 。 在 我 们 的 
已 婚 / 单 身 的 例子 中 ， 概 率 性 (probabilistic) 机 器 学 习 模型 对 于 每 个 新 人 会 输出 两 个 值 : 这 
个 人 已 婚 的 概率 和 单身 的 概率 。 

到 此 为 止 ， 我 们 忽略 了 一 些 细节 ， 但 原则 上 已 经 构建 了 第 一 个 机 器 学 习 系 统 。 每 个 机 器 
学 习 系 统 就 是 构建 模型 并 利用 模型 进行 预测 。 让 我 们 以 伪 代 码 的 方式 描述 一 下 机 史学 习 的 工 
作 流 程 ， 它 看 起 来 如 此 简单 ， 见 清单 1-1。 

清单 1-1 机 器 学 习 程 序 的 初始 结构 











data =1load data("data /People.csyv") 
model =build model (data,target = "Marital status") 
new_data =load datal("data/Mew people.csyv") 


predictions =model.predict (new_data) 

虽然 我 们 对 于 这 些 函 数 还 没有 编程 实现 ， 但 其 基本 结构 就 是 这 样 的 了 。 通 过 第 3 章 的 学 
习 ， 你 将 理解 这 些 步 又 ; 余下 的 章节 中 (第 4~10 章 ) 保证 你 对 于 要 解决 的 问题 可 构建 出 
最 好 的 模型 。 











1.3.3 模型 性 能 评估 


模型 的 性 能 不 经 验证 很 少 在 机 器 学 习 系 统 中 使 用 。 虽 然 本 章 忽 略 了 太 多 细节 ， 主 我 们 假 
定 你 已 经 知道 如 何 构建 模型 和 进行 预测 。 在 应 用 模型 对 新 数据 进行 预测 之 前 ， 你 可 以 通过 某 





些 聪明 的 手段 对 模型 的 工作 情况 有 所 了 解 。 








对 于 某 些 数据 ， 人 为 吻 除 目标 变量 ， 作 为 测试 数据 。 然 后 从 剩 下 的 数据 中 构建 模型 ， 并 








对 测试 数据 进行 预测 。 图 1-11 显示 了 模型 测试 过 程 。 




















包含 目标 的 测试 数据 
! 个 人 编号 姓名 ! 年 龄 ! 收入 | 婚姻 状况 。 
Sb Se ll Trent Mosley “267 os 1 67.500 人 a 

1 1 


Lilly Peters 1 9 和 


机 器 学 习 模 型 : 
预测 新 数据 的 目标 












预测 结果 与 
真实 值 比 较 




















图 1-11 当 使 用 测试 数据 评价 模型 性 能 时 ,假装 目标 变量 未 知 并 将 预测 结果 与 真实 结果 进行 比较 





让 我 们 也 来 看 看 这 个 流程 的 伪 代 码 ， 见 清单 1-2。 
清单 1-2 模型 评价 的 机 器 学 习 流 程 


data=1load datal(...) 
training_data,testing_ data =split_data (data) 








model =build model (training data,target = "Marital status") 


true values =testing_data.extract_column ("Marital sta 


predictions =model.predict (testing data) 


tus") 


accuracy =compare_predictions (predictions,true values) 


你 现在 可 以 将 预测 结果 与 已 知 的 “真实 ” 值 进 行 比较 以 判断 模型 的 精确 性 。 在 伪 代 码 
中 ， 这 个 功能 隐藏 在 compare_predictions 因数 中 ,第 4 章 的 绝 大 部 分 内 容 将 详细 讨论 这 个 郴 


数 对 于 各 种 机 器 学 习 问 题 是 什么 样 的 。 
1.3.4 模型 性 能 优化 


机 需 学 习 的 最 后 一 个 问题 也 在 第 4 章 中 进行 讨论 : 如 何 利用 模型 评估 的 结果 对 模型 进行 





改进 。 改 进 模型 的 精确 度 有 以 下 3 种 方式 : 








。 调整 模型 参数 一 一 机 器 学 习 算 法 是 由 特定 于 底层 算法 的 参数 进行 配置 的 ， 这 些 参数 的 
优化 与 数据 的 类 型 和 结构 有 关 。 每 个 参数 的 值 ， 或 它们 的 任意 组 合 都 会 影响 模型 的 性 
能 。 我 们 介绍 各 种 发 现 和 选择 最 佳 参数 值 的 方法 ， 并 说 明 这些 方 法 对 于 要 解决 问题 的 








数据 集 ， 确 定 最 佳 算法 时 是 如 何 使 用 的 。 

















。 特征 子 集 的 选择 一 一 许多 机 融 学 习 问 题 包 含 大 量 的 特征 ， 并 且 这 些 特 征 的 噪声 有 时 














使 得 算法 很 难 发 现 数据 的 真实 信息 ， 即 使 这 些 特 生 
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F 本 身 是 非常 有 用 的 。 对 于 许多 机 


器 学 习 问 题 ， 数 据 量 大 是 一 件 好 事 ， 但 有 时 也 会 起 反作用 。 因 为 事先 不 可 能 知道 噪 
声 何 时 会 影响 模型 的 性 能 ， 所 以 在 确定 大 多 数 通 用 有 旦 精确 模型 的 特征 时 ,一定 要 谨 
慎 从 事 。 
数据 预 处 理 一 一 如 果 在 网 上 搜索 ， 你 会 发 现 许多 可 快速 用 于 各 种 机 器 学 习 的 数据 集 。 
但 实际 上 数据 集 不 会 这 人 么 单纯 ， 必 须 进 行 清洗 和 处 理 ， 这 个 过 程 被 广泛 称 为 数据 改写 
(data munging) 或 数据 打磨 〈data wrangling) 。 数 据 集 中 可 能 包含 同 物 异 名 ， 缺 失 的 
或 不 正确 的 值 ， 这 些 都 会 损害 模型 的 性 能 。 这 听 起 来 像 是 边缘 情况 ， 但 你 会 吃惊 地 发 
现 : 即使 在 复杂 的 数据 驱动 的 组 织 中 ， 这 种 情况 也 经 常 发 生 。 

有 了 这 些 机 带 学 习 的 必要 基础 ， 在 详细 学 习 本 节 讨 论 的 主要 内 容 之 前 ， 将 简要 介绍 机 融 
学 习 中 更 高 级 的 特性 。 














1.4 提高 模型 性 能 的 高 级 技巧 


前 面 的 部 分 介绍 了 实际 机 器 学 习 项 目 必需 的 几 个 步 又 ， 现 在 来 了 解 一 下 进一步 提升 
模型 性 能 的 其 他 技巧 。 根 据 问题 和 数据 的 不 同 ， 有 些 技巧 可 显著 提高 精确 度 ， 但 有 时 对 
训练 和 预测 速度 有 一 定 影响 。 这 些 技巧 将 在 第 5 ~ 10 章 详细 讨论 ， 本 闻 先 列 出 其 主要 


思想 。 


1.4.1 数据 预 处 理 和 特征 工程 


在 第 2 章 你 将 看 到 各 种 类 型 的 数据 和 和 常见 数据 混乱 的 处 理 。 除 这 些 必要 的 数据 清洗 之 
外 ， 你 还 可 以 再 进一步 地 从 数据 中 提取 附加 数据 ， 用 于 提升 模型 的 性 能 。 

对 于 任何 问题 域 ， 领 域 知识 决定 收集 的 数据 。 这 珍贵 的 领域 知识 还 可 以 从 收集 的 数 
据 中 提取 有 价值 的 值 ， 在 模型 构建 之 前 添加 到 模型 的 特征 集中 。 我 们 把 这 个 过 程 称 作 特 
征 工程 (feature engineering) ， 当 掌握 了 前 面 介 绍 的 机 器 学 习 必 备 的 基础 知识 后 ， 你 会 发 
现 大 部 时 间 都 在 进行 优化 。 这 也 是 机 器 学 习 最 具 创 造 性 的 部 分 ， 你 可 以 使 用 知识 和 想象 
力 找 到 提升 模型 的 方法 ， 并 对 数据 进行 挖掘 以 提取 潜在 的 价值 。 你 将 广泛 使 用 我 们 的 统 
计 验 证 模型 的 评估 和 优化 步骤 ， 来 区 分 什么 是 好 的 想法 ， 以 及 哪些 是 实用 的 。 这 里 是 一 
些 重要 的 特征 工程 的 例子 : 

e 日 期 和 时 间 一 一 在 许多 数据 集中 有 日 期 和 时 间 变 量 ， 但 它们 本 身 对 机 器 学 习 算 法 没 什 

么 用 处 ， 机 器 学 习 算 法 倾向 于 用 原始 数字 或 类 别 表 示 它 们 。 但 这 种 信息 可 能 是 很 有 价 
值 的 ， 如 果 你 要 预测 广告 何 时 播 出 ， 则 在 一 年 的 什么 时 间 、 一 周 的 什么 时 间 以 及 一 天 
的 什么 时 间 播 出 广告 是 非常 重要 的 。 使 用 特征 工程 ， 这 些 信 息 可 从 日 期 和 时 间 中 提 
取 ， 并 用 于 数据 模型 。 

还 有 ， 当 观察 重复 活动 的 日 期 和 时 间 时 ， 如 用 户 在 一 年 或 一 月 中 重复 访问 网 站 的 次 数 ， 
可 用 于 预测 每 两 次 访问 的 时 间 间 隔 。 例 如 ， 在 购物 网 站 中 ， 用 户 在 购买 之 前 会 频繁 地 进行 访 
问 以 比较 商品 和 价格 。 

e 位 置 一 一 在 某 些 数据 集中 可 能 包含 位 置信 息 ， 如 经 纬度 坐标 或 地 址 名 称 。 这 些 信息 本 
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身 可 被 用 于 特征 工程 ， 但 对 于 特定 的 问题 可 
能 提取 到 额外 的 信息 。 例 如 ， 如 果 你 要 预测 
一 个 县 的 选举 结果 ， 可 能 要 提取 人 口 密度 、 
平均 收入 和 贫困 率 作为 数值 ， 应 用 在 模型 中 。 
数字 媒体 一 一 包含 文本 、 文 档 、 图 片 和 视频 。 
特征 工程 要 使 用 此 类 数据 是 比较 困难 的 ， 就 
如 狗 和 猫 的 识别 比赛 一 样 。 对 于 图 片 首先 要 | 模型 构建 | 
提取 的 是 边缘 、 形 状 和 颜色 光谱 。 然 后 ， 对 
这 些 数据 使 用 数学 转换 进行 分 类 ， 把 输出 结 | 模型 评价 | 一 | 模型 优化 | 
果 作 为 分 类 算法 的 特征 集 。 

很 明显 ， 特 征 工程 对 于 实用 机 器 学 习 项 目 是 非 ”观测 
常 重要 的 。 第 5 ~7 章 将 详细 介绍 特定 的 特征 工程 技 
术 。 你 将 学 习 如 何 将 这 些 技术 用 于 机 器 学 习 流 程 ， 



























































在 不 增加 复杂 性 和 易 过 度 拟 合 性 的 基础 上 提升 模型 图 1_12 特征 工程 阶段 插入 到 
性 能 。 图 1-12 示 出 了 特征 工程 如 何 集 成 到 1.3 节 介 原来 的 机 器 学 习 流 程 中 


绍 的 机 器 学 习 流 程 中 。 
1.4.2 用 在 线 算法 持续 改进 模型 

大 多 数 传 统 的 机 器 学 习 模 型 是 静态 的 或 者 很 少 重建 。 但 在 许多 情况 下 ， 数 据 和 预测 结 
反馈 到 系统 中 ， 并 且 你 需要 模型 随 着 时 间 推 移 和 数据 的 改变 进行 提升 。 几 种 机 需 学 习 算 法 支 
持 这 种 在 线 学 习 (online leaming)。 第 8 章 将 介绍 这 些 算法 和 易 犯 的 错误 。 图 1-13 示 出 了 
持续 再 学 习 如 何 集成 到 机 器 学 习 流 程 中 。 











模型 构建 





图 1-13 在 线 机 器 学 习 系统 中 ， 预 测 结果 反 











回 模型 进行 迭代 改进 





于 





1.4.3 具有 数据 量 和 速度 的 规模 化 模型 
众所周知 ， 数 据 集 在 以 空前 的 数量 和 速度 增长 。 监 督 机 制 算 法 的 数据 集中 ， 目 标 结果 存 
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第 1 章 什么 是 机 器 学 习 


在 于 训练 集中 ， 传 统 上 比较 小 ， 因 为 需要 人 为 介入 以 获得 结果 。 现 在 ， 许 多 数据 (包括 结 
果 ) 由 传感器 、 机 骨 或 计算 机 产生 ， 所 以 我 们 开始 注意 机 器 学 习 算 法 的 规模 化 需求 ， 以 处 
理 如 此 容量 的 数据 。 

第 9 章 将 详细 介绍 能 够 随 数据 集 增 长 的 规模 化 机 咒 学 习 算 法 ， 并 对 它们 进行 横向 比较 ， 
以 及 和 非 规模 化 算法 之 间 的 异同 。 


1.5 总 结 


本 音 介 绍 了 机 器 学 习作 为 更 好 的 、 数 据 驱 动 的 决策 方法 ， 要 点 如 下 : 

。 机 带 学 习 算法 与 通过 数据 建立 模型 的 规则 系统 不 同 。 监 督 机 带 学 习 系 统 通过 从 已 知 结 
果 的 特征 集 学 习 的 方式 进行 归纳 。 

。 机 带 学 习 与 人 工 构 建 的 基于 规则 的 系统 相 比 ， 具 有 更 高 的 精确 度 、 自 动 性 、 迅 速 、 可 
目 定 义 和 规 模 化 的 特点 。 

。 机 融 学 习 面 临 的 挑战 包括 问题 识别 与 格式 化 以 便于 应 用 机 融 学 习 ， 数 据 采 集 和 转换 ， 
对 特定 问题 选择 正确 的 算法 ， 特 征 工程 和 过 度 拟 合 问题 。 

。 基本 机 器 学 习 工 作 流 程 包括 数据 准备 、 模 型 构建 、 模 型 评估 、 模 型 优化 和 新 数据 预测 。 

。 在 线 学 习 模 型 持续 通过 预测 结果 对 自身 进行 改进 。 


1.6 本章 术语 











本 章 术 语 见 表 1-2。 
表 1-2 本章 术 语 


































































































实例 或 样本 (instance 或 example) 单个 对 象 ， 观 测 ， 处 理 或 记录 

目标 或 标签 ( target 或 label) 感 兴趣 的 数值 或 分 类 (标签 )， 是 每 个 实例 要 预测 的 变量 

寺 征 (features) 输入 的 用 于 预测 目标 的 属性 。 特 征 可 能 是 数值 的 或 分 类 的 

模型 (model) 描述 特征 和 目标 之 间 关 系 的 数学 对 象 

训练 数据 (training data) 含 已 知 目 标的 实例 集 ， 用 于 拟 合 机 器 学 习 模 型 

可 忆 (recall) 用 模型 预测 目标 或 标签 

监督 机 器 学 习 (supervised machine learning) rn 的 给 定 样本 的 输出 值 是 已 知 的 ， 采用 输入 和 输出 之 间 的 函 


























无 监督 机 器 学 习 (unsupervised machine learning) 不 依赖 于 已 标记 的 样本 ， 试 图 寻找 非 标记 数据 的 内 在 结构 












































i 机 器 学 习 过 程 中 的 阶段 : 数据 准备 、 模 型 构建 、 模 型 评估 、 模 型 优 
a 3 本 了 

机 器 学 习 流程 (ML workflow ) 化 和 新 数据 预测 

在 线 学 习 (online learning) 对 于 每 个 样本 进行 预测 并 更 新 模型 的 一 种 机 器 学 习 形 式 


在 第 2 章 ， 你 将 学 习 数 据 收集 的 实际 问题 ， 并 对 其 进行 处 理 以 用 于 机 器 学 习 。 采 用 可 视 
化 方法 获得 选择 最 佳 工具 和 方法 的 洞察 力 。 
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第 2 章 
实用 数据 处 理 


本 章 导读 

e@ 机 器 学 习 起 步 。 

@ 收集 训练 数据 。 

@ 使 用 数据 可 视 化 技术 。 
@ 机 器 学 习 数 据 准备 。 


在 监督 机 融 学 习 过 程 中 ， 你 使 用 数据 教 自动 系统 如 何 做 出 准确 的 决策 。 机 融 学 习 算 法 被 
设计 成 发 现 模式 和 历史 训练 数据 间 的 联系 ; 它们 从 数据 中 学 习 并 将 学 习 结 果 编码 到 模型 中 ， 
从 而 对 新 数据 的 重要 属性 做 出 准确 的 了 预测。 因此， 训练 数 据 是 机 咒 学 习 中 的 基本 问题 。 有 了 
高 质量 的 数据 ， 就 可 以 捕 提 到 细微 的 差别 和 关联 关系 ， 从 而 建立 高 保 真 的 预测 系统 。 相 反 ， 
若 训练 数据 质量 不 佳 ， 则 再 好 的 机 顺 学 习 算 法 也 无 济 于 事 。 

本 章 作 为 收集 和 编译 训练 数据 用 于 监督 机 带 学 习 的 流程 〈 见 图 2-1) 的 向 导 ， 我 们 给 出 






































模型 构建 











图 2-1 基本 机 器 学 习 流程 。 因 为 本 章 主要 讲述 数据 部 分 ， 
所 以 对 历史 数据 和 新 数据 突出 显示 
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第 2 章 实用 数据 处 理 





了 准备 机 器 学 习 模型 数据 的 总 体 指 导 和 和 常见 问题 。 机 器 学 习 很 大 程度 上 就 是 训练 数据 研究 和 
可 视 化 ,来 评估 数据 质量 并 指导 学 习 过 程 。 出 于 对 这 个 问题 的 考虑 ， 我 们 提供 了 一 些 最 有 用 
的 数据 可 视 化 技术 的 概述 。 最 后 ， 我 们 讨论 了 如 何 为 机 器 学 习 模型 构建 准备 训练 数据 ， 这 是 
第 3 章 的 主题 。 

本 章 使 用 真实 机 器 学 习 的 例子 : 客户 流失 预测 〈churn prediction ) 。 在 商业 中 ， 客 户 流 
失 是 指 客户 取消 或 注销 付费 服务 的 行为 。 一 个 很 重要 、 很 有 价值 的 问题 是 预测 哪些 客户 在 不 
入 的 将 来 会 流失 。 如 果 公 司 对 于 客户 注销 他 们 的 服务 有 精准 的 把 握 ， 则 可 以 通过 发 送 消息 或 
打折 来 进行 干预 。 这 种 干预 可 为 公司 节约 上 百 万 的 费用 ， 因 为 获得 新 客户 的 花费 要 远大 于 挽 
留 客户 的 成 本 。 因 此 ， 客 户 流失 的 机 带 学 习 解 决 方案 对 于 潜在 流失 的 客户 提前 儿 周 预测 是 很 
有 价值 的 。 

本 章 使 用 的 数据 可 在 线 获得 ， 并 被 广泛 地 应 用 于 机 器 学 习 书 籍 和 文档 中 : 泰坦 尼克 乘客 
(Titanic Passengers) 和 汽车 油耗 (Auto MPG) 数据 。 


2.1 起 步 : 数据 收集 






































机 融 学 习 开 始 之 前 ,需要 解决 的 问题 是 : 适 不 适合 用 机 器 学 习 来 解决 。 虽 然 机 器 学 习 有 
许多 优点 ， 但 大 部 分 实际 机 器 学 习 问 题 是 处 理 对 感 兴趣 的 目标 变量 (或 变量 集 ) 进行 预测 。 
本 书 涵盖 大 多 数 的 监督 机 器 学 习 问题 。 适 合 于 监督 机 器 学 习 的 问题 包括 : 

e 本 月 我 的 哪些 客户 会 流失 ? 

。 这 个 用 户 会 单 击 我 的 广告 吗 ? 

e 这 个 用 户 账 户 是 欺诈 的 吗 ? 

e Tweet 的 这 条 评论 是 消极 的 、 积 极 的 还 是 中 立 的 ? 

e 下 个 月 对 我 的 产品 有 什么 需求 ? 

你 会 发 现 这 些 问 题 有 一 定 的 共性 。 第 一 ， 它 们 都 需要 对 一 个 或 几 个 感 兴趣 的 实例 进行 评 
估 。 这 些 实例 可 以 是 人 (如 在 客户 流失 问题 )， 事件 (如 Tweet 评论 问题 ) ， 甚 至 是 时 间 段 
(如 产品 需求 问题 ) 。 

第 二 ， 所 有 这 些 问题 都 有 一 个 定义 良好 的 兴趣 目标 ， 有 些 目 标 是 二 元 的 (流失 或 不 流 
失 ， 坎 诈 或 不 欺诈 ) ， 有 些 是 针对 多 个 分 类 (消极 的 、 积 极 的 或 中 立 的 ) 的 ， 有 的 甚至 是 成 
百 上 千 的 分 类 (从 巨大 乐 库 中 选取 一 首 歌 )， 还 有 处 理 数值 的 (产品 需求 )。 注 意 ， 在 统计 
学 和 计算 机 科学 中 ,目标 (target) 经 常 指 应 变量 (response) 或 因 变 量 (dependent varia- 
ble) 。 这 些 术 语 可 以 互 换 使 用 。 

第 三 ， 每 个 问题 都 有 一 组 历史 数据 ， 它 的 目标 是 已 知 的 。 例 如 ， 经 过 几 个 星期 或 几 个 月 
的 数据 收集 ， 你 可 以 断定 哪些 客户 流失 了 ， 哪 些 人 们 单 击 了 你 的 广告 。 经 过 人 工 努 力 ， 你 可 
以 对 不 同 的 Tweet 评论 进行 评价 。 除 了 目标 值 已 知 外 ， 历 史 数 据 还 会 包含 每 个 实例 的 、 在 预 
测 时 可 知 的 信息 。 这 些 称 之 为 输入 特征 (input features) ， 通 常 也 称 为 应 变量 (explanatory ) 
或 自 变量 (independent variables) 。 例 如 ， 客 户 的 产品 使 用 历史 、 客 户 的 人 口 特征 和 账户 信 
息 ， 将 会 是 非常 合适 的 客户 流失 预测 的 输入 特征 。 输 入 特征 和 值 已 知 的 目标 变量 就 组 成 了 训 
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练 集 (training set) 。 

最 后 ， 若 目标 是 已 知 的 ， 则 每 个 问题 都 会 有 一 个 潜在 的 活动 (action ) 。 举 例 来 说 ， 如 
果 知 道 一 个 用 户 会 单 击 你 的 广告 ， 那 么 你 就 会 向 该 用 户 投标 并 向 他 提供 广告 。 相 似 地 ， 如 果 
你 清楚 地 知道 下 个 月 的 产品 需求 ， 你 将 会 使 供应 链 匹配 这 个 需求 。 机 需 学 习 算 法 的 作用 就 是 
如 何 使 用 训练 集中 的 一 系列 输入 特征 ， 最 大 程度 地 准确 预测 目标 变量 。 这 种 学 习 结 果 被 编码 
在 机 器 学 习 模 型 中 。 当 有 新 的 实例 (目标 是 未 知 的 ) 时 ， 它 们 的 特征 被 输入 机 器 学 习 模 型 ， 
产生 这 些 实例 的 预测 结果 。 最 终 ， 这 些 预 测 将 使 终端 用 户 采取 更 明智 (更 迅速 ) 的 行动 。 
除 产生 预测 外 ， 机 顺 学 习 模 型 还 允许 用 户 推理 输入 特征 和 目标 变量 之 间 的 关系 。 

让 我 们 把 所 有 的 这 些 都 放 在 客户 流失 预测 问题 中 加 以 考虑 。 假 定 你 正在 为 电信 公司 服 
务 ， 现 在 的 问题 是 ,“ 我 的 哪个 手机 用 户 将 会 在 下 个 月 流失 ?” 此 处 ， 每 个 实例 就 是 当前 的 
用 户 。 同 样 ， 目 标 变 量 是 每 个 月 内 是 和 否 取消 服务 的 二 进 制 结果 。 输 入 特征 可 以 包含 月 初 每 个 
客户 的 可 知 信 息 ， 如 当前 账户 的 使 用 时 间 、 详 细 的 订阅 信息 、 上 个 月 通话 次 数 和 通话 时 长 
等 。 图 2-2 显示 了 电信 客户 流失 预测 训练 样本 的 前 4 行 。 
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图 2-2 电信 客户 流失 问题 的 训练 数据 (4 个 实例 ) 


本 节目 标 是 给 出 收集 机 带 学 习 训练 数据 的 基本 指导 。 数 据 采 集 不 同 的 公司 差别 很 大 ,但 
在 训练 数据 装配 时 都 会 遇 到 同样 的 、 令 人 头痛 的 问题 。 下 一 小 节 提 供 了 解决 数据 收集 4 个 共 
性 问题 的 方法 指导 : 

。 我 应 该 包含 哪些 输入 特征 ? 

。 我 如 何 获得 目标 变量 已 知 的 值 ? 

。 我 需要 多 少 训练 数据 ? 

。 我 如 何 知道 训练 数据 已 经 足够 ? 


2.1.1 应 包含 哪些 特征 


在 机 器 学 习 问 题 中 ， 通 常 需要 十 几 个 特征 来 预测 目标 变量 。 在 电信 客户 流失 问题 中 ， 输 
入 属性 包括 每 个 客户 的 统计 资料 〈 年 龄 、 性 别 和 住址 ) ， 订 阅 计划 (状态 、 保 持 时 间 、 最 近 
一 次 更 新 时 间 和 优先 状态 ) 和 使 用 记录 (通话 历史 、 文 本 消息 数据 和 数据 使 用 、 文 付 历 
史 ) ， 都 可 以 作为 输入 特征 。 在 能 否 用 作 输 入 特征 的 问题 上 ， 有 两 个 实际 的 限制 ; 

。 需要 预测 时 特征 的 值 必 须 是 已 知 的 〈 例 如 ， 电 信 客 户 流失 案例 中 的 开始 月 份 ) 。 

。 特征 必须 具备 数值 或 分 类 的 性 质 (第 5 章 将 介绍 通过 特征 工程 ， 如 何 将 非 数 值 数据 转 
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换 成 特征 ) 。 

如 通话 历史 数据 可 通过 汇总 统计 数据 计算 ， 被 处 理 成 数值 和 /或 分 类 特征 ， 如 通话 分 钟 
数 、 白 天 /夜晚 通话 时 间 比 值 、 工 作 日 /周末 通话 时 间 比 值 和 网 络 通话 时 间 。 

假如 给 定 一 组 广泛 的 可 能 的 特征 ， 你 会 使 用 哪些 ?作为 一 个 简单 的 经 验 法 则 ， 如 果 认 为 某 
个 特征 与 目标 变量 有 联系 ， 那 它 就 应 该 被 选择 。 监 督 机 器 学 习 的 目的 是 预测 目标 ， 那 些 很 明显 
与 目标 无 关 的 特征 应 该 被 排除 。 例 如 ， 每 个 客户 的 身份 识别 号 码 ， 如 果 该 客户 将 会 注销 ， 那 该 
号 码 将 不 能 用 作 特 征 进行 目标 预测 。 这 种 无 用 的 特征 使 得 模型 更 难于 从 扰动 的 数据 (噪声 ) 
中 探测 真正 的 关系 〈 信 号 ) 。 无 效 特征 越 多 ， 机 器 学 习 模 型 的 信 噪 比 和 平均 准确 率 就 越 低 。 

同样 ， 排 除 一 个 因为 事先 不 能 确定 是 否 与 目标 有 关 的 特征 也 会 损害 机 融 学 习 模型 的 准确 
性 。 事 实 上 ， 发 现 新 的 模式 和 数据 之 间 的 关系 是 机 器 学 习 的 任务 。 举 个 例子 ， 假 定 一 个 对 当 
前 未 打开 的 语音 邮件 计数 特征 被 排除 在 特征 集 之 外 。 那 么 ， 这 一 小 部 分 人 已 经 停止 检查 他 们 
的 语言 邮件 ， 因 为 他 们 在 下 个 月 将 更 换 运营 商 。 数 据 中 的 这 个 信号 很 有 描述 性 ， 因 为 有 大 量 
未 打开 语音 邮件 的 客户 流失 的 条 件 概 率 会 轻微 提高 。 排 除 这 个 输入 特征 会 丧失 机 央 学 习 算 法 
的 重要 信息 ， 因 此 将 导致 机 器 学 习 系 统 的 预测 的 准确 性 降低 。 因 为 机 器 学 习 算法 能 够 发 现 微 
妙 的 、 非 线性 关系 及 未 知 的 特征 ， 一 阶 效应 对 模型 的 准确 性 有 很 大 影响 。 

选择 可 用 的 输入 特征 ， 你 将 面临 一 个 平衡 。 一 方面 ， 将 所 有 想到 的 特征 〈 就 像 厨房 中 
的 水 槽 ) 都 抛 给 模型 ， 会 造成 一 些 包含 信号 的 特征 被 巨大 的 噪声 淹没 。 机 器 学 习 模 型 会 受 
到 影响 ， 因 为 它 不 能 从 随机 噪声 中 识别 真正 的 模式 。 另 一 个 极端 ， 手 工 选择 已 知 与 目标 变量 
有 关 的 少量 特征 ， 会 导致 你 忽略 其 他 高 预测 性 的 特征 。 结 果 ， 机 需 学 习 模 型 的 准确 性 也 会 受 
到 影响 ， 因 为 模型 对 忽略 的 特征 一 无 所 知 ， 它 们 恰好 对 目标 很 有 预测 性 。 

面 对 这 种 平衡 ， 最 实用 的 方法 如 下 : 

1) 包含 所 有 你 认为 对 目标 变量 有 预测 性 的 特征 。 选 择 一 种 机 需 学 习 模 型 ， 如 果 模 型 的 
准确 性 足够 ， 则 停止 。 

2) 否则 ， 扩 大 特征 集 ， 包 括 与 目标 关系 明显 较 弱 的 一 些 特征 ， 选 用 另 一 模型 并 评估 准 
确 性 。 若 性 能 足够 ， 则 停止 。 

3) 否则 ， 从 扩大 了 的 特征 集 开 始 ， 运 行 机 各 学 习 特 征 选择 算法 (feature selection algo- 
rithm) 来 选择 最 好 的 、 最 有 预测 性 的 特征 集 的 子 集 。 

我 们 将 在 第 5 章 进一步 讨论 特征 选择 算法 。 这 些 方法 寻找 建立 在 特征 子 集 上 的 最 精确 的 
模型 ， 它 们 在 剔除 噪声 的 同时 保存 特征 集中 的 信号 。 虽 然 计 算 成 本 很 高 ， 但 它们 可 极 大 地 提 
升 模型 性 能 。 

作为 本 节 的 结束 ， 提 醒 很 重要 的 一 条 : 模型 使 用 的 输入 特征 ， 没 必要 出 现在 每 个 实例 
中 。 例 如 ， 如 果 只 知道 75% 的 顾客 的 年 龄 ， 仍 可 将 年 龄 作为 一 个 输入 特征 。 在 本 章 稍 后 ， 
我 们 讨论 缺失 数据 的 处 理 问题 。 


2.1.2 如何 获 得 目标 变量 的 真实 值 


在 监督 机 器 学 习 起 步 中 ， 最 大 的 障碍 是 用 已 知 的 目标 变量 集成 数据 。 这 个 过 程 往往 需要 运 
行 一 个 现 有 的 、 次 优 的 系统 一 段 时 间 ， 直 到 收集 到 足够 的 训练 数据 。 例 如 ， 在 构建 电信 客户 流 
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失 的 机 带 学 习 解 决 方案 时 ， 你 需要 先 观 察 几 个 星期 甚至 几 个 月 ， 观 察 部 分 客户 的 退 订 和 其 他 客 
户 的 续 订 。 当 你 有 了 足够 的 实例 构建 精确 的 机 器 学 习 模 型 时 ， 就 可 以 将 机 器 学 习 应 用 于 产 
品 中 。 
真实 值 (ground truth) 一 一 目标 变量 的 真实 值 或 观测 值 的 收集 和 评价 ， 每 种 情况 都 不 
尽 相 同 。 例 如 ， 考 虑 以 下 几 个 选 定 的 机 顺 学 习 案 例 的 训练 数据 收集 过 程 : 
® 广告 定位 (Ad targeting) 你 可 举行 几 天 活动 确定 哪些 用 户 单 击 /不 单 击 你 的 广告 
和 哪些 用 户 可 被 转化 。 
e 欺诈 检测 (Fraud detection ) 
的 ， 哪 些 是 合法 的 。 
e 需求 预测 (Demand forecasting ) 











你 可 以 仔细 检查 过 去 的 数据 ， 找 出 哪些 用 户 是 欺诈 








你 可 以 查寻 历史 供应 链 管理 数据 以 确定 过 去 几 个 


月 或 几 年 的 产品 需求 。 
e Twitter 情感 预测 (Twitter sentiment) 一 一 获取 真实 情感 是 比较 困难 的 。 你 可 以 通过 人 


工 阅读 或 Twitter 发 表 感想 (或 使 用 众 包 ) 的 方式 进行 人 工分 析 。 

虽然 收集 目标 变量 已 知 的 实例 无 论 从 是 时 间 上 还 是 金钱 上 ， 开 销 都 是 很 大 的 ， 但 迁移 到 机 
器 学 习 解决 方案 的 好 处 是 完全 可 以 弥补 这 些 损 失 的 。 获 取 目 标 变量 真实 值 的 其 他 方法 如 下 : 

e 分 析 员 致力 于 历史 数据 和 当前 数据 的 分 析 ， 确 定 或 评价 目标 的 真实 值 。 

。 使 用 众 包 方式 的 “集体 智慧 ”获取 目标 的 估计 值 。 

e 进行 客户 采访 或 通过 其 他 方式 与 客户 面对面 交流 。 

e 运行 可 控 的 实验 (例如 ，A/B 测试 ) 并 监视 运行 结 

这 些 方 法 策略 都 是 劳动 密集 型 的 ， 但 可 以 加 速 学 习 过 程 ， 缩 短 对 机 需 学 习 模 型 有 利 的 训 
练 数据 所 需 的 收集 时 间 。 这 个 例子 被 称 为 主动 学 习 (active learning ) 。 给 定 较 小 的 训练 集 和 
较 大 的 应 变量 未 知 的 数据 集 ， 主 动 学 习 识 别 后 者 子 集中 的 实例 ， 这 些 实例 的 结论 存在 于 训练 
集中 ， 将 产生 最 精确 的 机 融 学 习 模 型 。 在 这 个 意义 上 ， 主 动 学 习 可 以 通过 集中 手动 资源 来 加 
速 精确 机 器 学 习 模 型 的 产生 。 关 于 更 多 主动 学 习 和 相关 方法 的 信息 ， 见 ICML 的 达 斯 古 普 塔 
(Dasgupta) 和 兰 富 德 (Langford) 在 2009 年 的 演讲 9 。 


2.1.3 需要 多 少 训练 数据 


鉴于 数据 实例 的 应 变量 的 观察 和 收集 是 比较 困难 的 ， 你 可 能 想 知道 一 个 机 器 学 习 模 型 的 运行 
需要 多 少 训练 数据 。 很 不 幸 这 个 问题 过 于 专业 ， 很 难 给 出 一 个 统一 的 回答 ， 哪 怕 是 经 验 法 则 。 

下 列 因素 决定 所 需 训练 数据 的 数量 : 

。 问题 的 复杂 性 。 输 入 特征 和 目标 变量 之 间 的 关系 是 简单 的 模型 ， 还 是 关系 非常 复杂 且 
是 非 线性 的 ? 

。 准确 性 需求 。 如 果 你 的 问题 只 要 求 60% 的 准确 率 ， 那 么 需要 的 训练 数据 会 比 准确 率 
要 求 达 95% 以 上 所 需 的 数据 量 小 得 多 。 
。 特征 空间 的 维 数 。 如 果 输 入 特征 只 有 两 个 ， 那么 比 2000 个 输入 特征 需要 的 训练 数据 









































见 http://videolectures. net/icml09_dasgupta_langford_actl/ 。 
24 


要 少 很 多 。 

一 条 指导 性 的 原则 是 ， 随 着 训练 集 的 增长 ， 模 型 也 就 越 (平均 ) 准确 (假定 在 数据 产 
生 的 过 程 中 保持 数据 的 代表 性 (representative) ) 。 训 练 数据 越 多 越 准 确 ， 源 于 机 器 学 习 模 型 
的 数据 驱动 性 。 因 为 特征 和 目标 之 间 的 关系 完全 来 自 于 训练 数据 ， 所 以 训练 数据 越 多 ， 模 型 
就 越 能 够 识别 和 捕 提 微妙 的 模式 和 关系 。 

使 用 本 章 前 面 的 电信 数据 ， 我 们 可 以 证 明 机 器 学 习 模 型 是 如 何 随 着 训练 数据 的 增多 而 提 
高 的 ， 并 可 提供 一 种 策略 以 评估 是 否 需 要 更 多 的 训练 数据 。 电 信 的 训练 数据 包含 3333 个 实 
例 ， 每 个 实例 包含 19 个 特征 ， 外 加 退 订 或 继续 的 二 进 制 结 果 。 使 用 这 个 数据 ， 可 以 很 直接 
地 评估 是 否 需 要 进一步 收集 数据 。 方 法 如 下 : 

1) 使 用 当前 训练 集 ， 选 择 一 个 网 格 大 小 的 子 样本 进行 试验 。 例 如 ， 对 于 这 个 3333 个 实 
例 的 电信 训练 数据 ， 网 格 大 小 可 以 是 500、1000、1500、2000、2500 和 3000。 

2) 对 于 每 个 样本 大 小 ， 从 训练 集中 随机 抽取 若干 实例 (不 需要 替换 ) 。 

3) 对 于 训练 数据 中 的 每 个 子 样本 ， 构 建 机 器 学 习 模 型 并 评估 模型 的 准确 性 (我 们 在 第 
4 章 讨论 机 器 学 习 的 评价 指标 ) 。 

4) 评价 作为 样本 大 小 的 函数 准确 率 的 变化 。 如 果 样 本 数量 越 大 准确 性 趋 于 稳定 ， 则 说 
明 当 前 训练 集 可 能 是 足够 的 。 但 样本 数量 越 大 ， 准 确 性 持续 升 高 的 话 ， 则 包含 更 多 的 训练 实 
例 有 可 能 提高 准确 率 。 

或 者 ， 如 果 对 于 目标 准确 性 有 明确 要 求 ， 你 可 以 使 用 该 策略 评估 建立 在 当前 训练 集 数据 
上 的 机 需 学 习 模 型 是 和 否 达到 了 目标 要 求 (在 这 种 情况 下 没 必要 再 积累 更 多 的 训练 数据 ) 。 

图 2-3 所 示 证 明了 机 器 学 习 模型 的 准确 性 作为 电信 数据 中 训练 实例 数目 的 函数 是 如 何 


准确 性 在 此 开始 增 大 ， 准确 性 开始 变 得 平缓 
需要 的 样本 数 >1000 当前 训练 集 已 足够 










































































准确 性 (AUC) 








$500 1000 1500 2000 2500 3000 3500 
训练 样本 数量 
图 2-3 测试 3333 个 训练 样本 是 否 足 以 构建 电信 客户 流失 机 器 学 习 模 型 
( 黑 线 表示 通过 评价 程序 平均 准确 率 超 过 10 次 的 数据 ， 隐 形 区 域 表 示 错 误区 域 ) 
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变化 的 。 在 本 例 中 ， 随 着 不 断 添加 训练 样本 ， 准 确 性 有 明显 的 提高 : 样本 数量 从 250 增加 到 
500 ， 再 到 700 ， 模 型 准确 率 有 明显 的 提高 。 然 而 ， 当 样本 数量 超过 2000 时 ， 准 确 率 则 趋 于 
稳定 。 非 常 明显 ， 如 果 再 增加 训练 样本 ， 机 器 学 习 模 型 也 不 会 再 有 实质 性 的 提升 (但 这 并 
意味 着 ， 增 加 更 多 的 特征 ， 不 会 显著 提升 模型 性 能 ) 。 


2.1.4 训练 集 是 个 有 足够 的 代表 性 


除 训 练 集 的 大 小 外 ， 另 一 个 产生 准确 预测 模型 的 重要 因素 是 训练 集 的 代表 性 〈represen- 
tativeness) 。 训 练 集 中 的 实例 和 将 要 收集 的 实例 到 底 有 多 相似 呢 ? 因为 有 监督 机 融 学 习 的 目 
标 是 对 新 数据 产生 准确 的 预测 ， 它 的 根本 是 训练 集 对 要 预测 的 数据 要 有 代表 性 。 训 练 集 包 含 
与 将 来 数据 不 一 致 的 非 代 表 性 样本 称 作 样本 选择 偏差 〈sample - selection bias) 或 协 移 (co- 
variate shift ) 。 

训练 样本 没有 代表 性 ， 有 以 下 几 个 原因 : 

。 目标 变量 的 真 值 可 能 是 由 个 别 的 有 偏差 的 样本 获得 的 。 例 如 ， 如 果 在 历史 数据 中 ， 只 

有 在 欺诈 公司 超过 1000 美元 时 ， 才 算 作 其 诈 样 本 ， 那 么 这 样 训 练 出 来 的 模型 就 很 难 
识别 1000 美元 以 下 的 欺诈 行为 。 

。 样本 属性 随 着 时 间 而 改变 。 例 如 ， 如 果 训 练 包含 医疗 保险 欺诈 的 历史 数据 ， 但 新 的 医 

疗法 规 发 生 了 实质 性 改变 ， 要 求 医疗 保险 人 必须 履行 他 们 的 职责 ， 那 么 用 作对 新 数据 
的 预测 是 不 太 合适 的 。 
e 输入 特征 随时 间 而 改变 。 例 如 ， 假 定 你 收集 的 住址 信息 发 生 了 改变 ， 以 前 收集 邮政 编 
码 和 住址 ,但 现在 收集 IP 地 址 。 这 种 改变 要 求 你 修改 模型 的 特征 集 ， 且 有 可 能 抛弃 
训练 集中 的 旧 数 据 。 

在 这 些 情况 下 ， 拟 合 训练 数据 的 机 带 学 习 模型 ， 对 新 数据 的 推断 能 力 可 能 不 好 。 借 用 一 
句 格 言 : 不 能 挂 羊 头 卖 狗肉 (用 训练 苹果 的 模型 预测 橘子 )! 这 个 模型 对 橘子 的 预测 准确 性 
可 能 不 会 很 好 。 

为 了 避免 这 些 问 题 ， 尽 量 使 训练 集 数据 的 代表 性 ， 和 将 来 的 数据 保持 一 致 是 非常 重要 
的 。 这 就 要 求 以 没有 偏差 的 方式 收集 训练 数据 。 在 下 一 节 将 讲 到 数据 可 视 化 有 助 于 保证 训练 
集 的 代表 性 。 

现在 你 已 经 知道 如 何 收 集训 练 数据 了 ， 下 一 步 的 任务 是 装配 数据 ， 准 备 构建 机 器 学 习 模 
型 。 下 一 节 讲 述 如 何 对 训练 集 数据 进行 预 处 理 ， 开 始 构建 模型 ( 建 模 是 第 3 章 的 话题 ) 。 


























































































































2.2 数据 预 处 理 





收集 数据 只 是 为 建 模 准备 数据 的 第 一 步 ， 有 时 需要 经 过 几 个 预 处 理 步骤 ， 这 取决 于 数据 
集 的 组 成 。 许 多 机 融 学 习 算 法 只 能 用 于 处 理 数 值 数 据 一 一 整数 和 实数 。 最 简单 的 机 融 学 习 数 
据 集 就 是 这 种 形式 ， 但 还 包括 许多 其 他 类 型 的 特征 ， 如 分 类 变量 ， 并 且 还 有 人 缺失 数据 。 有 时 
需要 通过 特征 工程 对 特征 进行 构建 或 计算 。 有 些 数值 特征 需要 进行 调整 以 便于 对 比 ， 或 与 某 
种 频率 分 布 一 致 ( 如 正 态 分 布 曲线 ) 。 本 节 将 介绍 常用 的 数据 预 处 理 。 
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2.2.1 分 类 特征 


最 常见 的 非 数值 特征 是 分 类 特征 。 如 果 特 征 值 可 被 放 在 桶 中 上 且 这 些 值 的 顺序 并 不 重要 ， 
那么 这 个 特征 就 是 分 类 的 (〈categorical) 。 有 些 场合 ， 这 类 特征 很 容易 区 分 (例如 ， 当 它 只 有 
几 个 字符 第 时 ， 如 垃圾 邮件 (spam) 和 火腿 (ham) ) 。 其 他 情况 下 ， 一 个 特征 到 底 是 数值 
类 型 (整数 ) 的 还 是 分 类 类 型 的 ， 则 不 是 十 分 明显 。 有 时 两 种 类 型 都 对 ， 但 类 型 选择 可 影 
响 模型 的 性 能 。 一 个 例子 是 表示 一 周 的 某 一 天 ， 编 码 成 数值 型 (从 周 日 算 起 的 天 数 ) 或 分 
类 型 (周一 、 周 二 等 ) 都 是 合理 有 效 的 。 直 到 第 3 章 和 第 4 章 才 会 看 到 构建 模型 和 性 能 的 
有 关内 容 ， 本 节 只 是 介绍 如 何 处 理 分 类 特征 。 图 2-4 给 出 了 几 个 数据 集 的 分 类 特征 。 

































































1 个 人 编号 1 姓名 1 年 龄 1 收入 1 婚姻 状况 I 
1 + + + + | 
! 1 !_Jane Doe ! 24 1 81,200 1 单身 | 
1 2 1 John Smith 1 41 1 121,000 1 已 婚 1 
分 类 特征 
Passengerld | Survived 1 Pclass | Gender | Age | SibSp | Parch 1 Ticket 1 Fare 1 Cabin 1 Embarked 
+ t + t + + 
1 10 13 1! Male 122 11 1 1 A/$ 21171 1 7.25 1 1S 
让 a nt en ee re 
2 11 11 1 Female 1 38 11 1 0 1 PC 17599 171.2833 1C85 1C 
a [i i i i i en et 
3 11 13 1 Female 1 26 10 1 0 1 STON/02.3101282 17.925 1 1 S 
一 一 一 一 一 一 一 一 三 一 一 一 一 一 十 一 一 一 一 十 一 一 一 一 二 一 一 一 五 一 一 一 二 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 十 一 一 一 一 王 一 一 一 一 一 一 
4 11 1 1 1 Female 1 35 1 1 1 0 1 113803 1 53.1 1C123 1S 
二 [0 Rh eR 羡 全 :二 二 关 拓 党 二 
5 10 13 1! Male 135 10 1 0 1 373450 1 8.05 1 1 S 
二 鼎 二 
6 10 1 3 1 Male | 10 1 0 1 330877 1 8.4583 1 1Q 























图 2-4 识别 分 类 特征 。 顶 部 是 个 人 的 信息 数据 ， 有 一 个 婚姻 状况 分 类 特征 。 底 部 是 泰坦 尼克 号 的 乘 
客 信息 。 其 中 ， 识 别 为 分 类 特征 的 是 Survived (乘客 是 否 幸 存 ) 、Pclass (乘客 等 级 ) 、Gender (性 别 : 
Male ( 男 ) 或 Female ( 女 ) ) 和 Embarked (乘客 登 船 地 ) 


















































有 些 机 器 学 习 算法 生来 使 用 分 类 特征 ， 但 一 ee 
般 情况 下 它们 需要 的 数据 是 数值 型 的 。 你 可 以 将 Male | 
分 类 特征 编码 成 数字 ( 一 个 数字 对 应 一 类 ) ， 但 不 peal "| | : 
能 将 这 些 编码 数据 作为 真正 的 分 类 特征 ， 因 为 你 Male 1 ||， 
已 经 约定 了 类 别 的 顺序 (任意 顺序 ) 。 回 想 一 下 ， i , 
分 类 特征 的 一 个 属性 是 无 序 性 。 相 反 ， 你 可 以 把 Fomale o || 1 
每 个 分 类 特征 转换 成 独立 的 二 进 制 特征 ，1 表示 实 
例 存在 ,0 表示 不 存在 。 因 此 ， 一 个 分 类 特征 被 转 
换 成 一 系列 二 进 制 特征 ， 每 个 代表 一 个 分 类 。 用 和 当下 ee 
这 种 方式 构建 的 特征 有 时 被 称 为 虚拟 变量 或 哑 元 “vale” 和 “Female* 每 个 代表 一 个 分 类 





(dummy variable) 。 图 2-5 所 示 进 一 步 说 明了 这 个 。 图 2-5 把 分 类 列 变量 转换 成 数值 列 变量 
概念 。 
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将 图 2-5 中 的 分 类 特征 转换 成 二 进 制 特征 的 伪 代 码 见 清单 2-1。 注 意 ，categories 是 
NumPy 的 一 个 特征 类 型 (www. numpy. org) ， 就 像 “data == cat” 可 以 产生 一 系列 布尔 值 。 


清单 2-1 把 类 别 特征 转换 成 数值 型 二 进 制 特征 








def cat_to_num(data): 
categories =unique (data) 
features = [] 
for cat in categories: 
binary = (data == cat) 
features.append (binary.astype ("int")) 


return features 


注意 ， 熟 悉 Python 编程 语言 的 读者 可 能 会 注意 到 前 面 的 示例 代码 不 仅仅 是 伪 代 码 ， 它 
还 是 有 效 的 Python 程序 。 这 种 代码 贯穿 本 书 : 我 们 把 代码 片段 当 作伪 代码 ， 除 非特 殊 声 明 ， 
它 都 是 可 运行 的 。 为 了 使 代码 简单 ， 我 们 隐 式 导入 了 一 些 辅助 类 库 ， 如 numpy 和 scipy。 如 
果 包 含 了 from numpy import * 和 from scipy import * ， 则 代码 一 般 是 可 以 运行 的 。 虽 然 这 种 
方式 是 便于 以 交互 方式 尝试 的 例子 ， 但 你 不 应 该 在 实际 应 用 中 使 用 它 ， 因 为 import * 可 能 会 
引起 命名 冲突 和 预料 不 到 的 后 果 。 所 有 示例 代码 都 在 附带 的 GitHub (https://github. com/ 
brinkar/real - worldmachine -learning) 库 中 ， 读 者 可 以 学 习 和 直接 运行 。 

分 类 到 数值 类 型 转换 技术 可 用 于 大 多 数 的 机 需 学 习 算 法 。 但 有 些 算法 〈 如 某 些 类 型 的 
决策 树 算法 及 其 相关 算法 ， 如 随机 森林 算法 ) 天 生 使 用 分 类 特征 。 对 于 高 度 分 类 化 的 数据 
集 将 产生 较 好 的 结果 ， 我 们 将 在 下 一 章 进一步 讨论 这 个 问题 。 我 们 的 个 人 信息 ， 把 分 类 特征 
转换 成 二 进 制 特征 后 ， 如 图 2-6 所 示 。 









































1 个 人 编号 ”| 姓名 ! 年 龄 1 收入 1 婚姻 状况 (单身 ) 1 婚姻 状况 (已 婚 ) ' 
| 1 Jane Doe | 24 | 81,200 : 1 1 0 
1 John Smith 1 41 | 121,000 1 0 pal | 




















图 2-6 把 分 类 特征 转换 成 二 进 制 数值 特征 后 的 个 人 信息 ( 原 信息 在 图 2-4 中 ) 


2.2.2 缺失 数据 处 理 


你 已 经 见 过 一 些 缺 失 数 据 的 例子 。 在 表格 数据 集中 ,缺失 数 据 通常 表现 为 空 单元 格 或 显 
示 为 NaN ( 非 数 字 ) 、N/A 或 None。 缺 失 数据 是 数据 收集 过 程 中 的 常见 现象 。 由 于 某 种 原 
因 ， 对 于 某 个 数据 实例 ， 一 个 特殊 的 值 是 不 可 度量 的 。 图 2-7 示 出 了 泰坦 尼克 号 乘客 信息 
缺失 的 例子 。 

缺失 数据 主要 有 两 种 类 型 ， 需 要 以 不 同 的 方式 进行 处 理 。 首 先 ， 有 些 缺 失 的 数据 可 能 携 
人 带 有 意义 的 信息 ， 这 对 于 机 器 学 习 算 法 来 说 可 能 有 用 。 另 一 种 可 能 是 ， 数 据 缺 失 仅仅 是 因为 
数据 本 身 不 可 测量 ， 数 据 不 可 获得 并 不 具有 任何 意义 。 例 如 ， 在 泰坦 尼克 数据 集中 ，Cabin 
(舱位 ) 列 的 值 缺失 ， 表 明 这 些 乘客 的 社会 地 位 或 经 济 地 位 很 低 ， 然 而 Age (年 龄 ) 列 数据 
缺失 则 没有 什么 意义 〈 只 是 因为 某 个 特殊 乘客 的 年 龄 数据 找 不 到 了 ) 。 
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1 Female 138 11 
了 Ee 


1 Female 1 26 10 








Be 
缺失 值 


图 2-7 泰坦 尼克 乘客 数据 在 Age (年 龄 ) 和 Cabin (舱位 ) 两 列 有 缺失 值 。 
(乘客 信息 是 从 各 种 历史 数据 中 抽取 的 ， 数 据 缺 失 源 于 信息 源 中 找 不 到 这 些 信 息 ) 
































让 我 们 先 考虑 有 意义 的 〈informative) 缺失 数据 。 当 你 认为 信息 缺失 时 ， 通 常 是 想 让 机 
器 学 习 算 法 使 用 这 些 信 息 提高 预测 的 准确 性 。 为 了 达到 这 个 目的 ， 你 要 把 缺失 的 数据 转换 成 
该 列 相同 的 格式 。 对 于 数值 列 ， 通 常设 置 成 -1 或 -999,， 这 取决 于 非 空 值 的 典型 值 。 从 数 
值 序列 的 一 端 取 一 个 值 表示 缺失 的 数据 ， 记 住 数值 列 顺序 是 十 分 重要 的 。 不 能 取 数 值 分 布 的 
中 间 值 作为 缺失 值 。 

对 于 可 能 包含 有 意义 的 缺失 数据 的 分 类 列 ， 可 以 创建 一 个 新 的 分 类 ， 称 作 Missing 或 
None 等 ， 然 后 像 普通 列 一 样 处 理 。 图 2-8 给 出 了 如 何 处 理 有 意义 的 缺失 数据 的 简 图 。 


鼎 失 的 数据 有 意义 吗 ? 


数据 类 型 分 类 类 型 

















把 缺失 值 转换 成 为 缺失 值 创建 
意义 的 数值 , 如 -1 和 -999 一 个 分 类 








图 2-8 处理 有 意义 的 缺失 数据 


当 数 据 项 的 值 缺 失 本 身 没 有 什么 意义 时 ， 可 以 用 不 同 的 方式 进行 处 理 。 在 这 种 情况 下 ， 
不 能 引入 一 个 特殊 的 值 或 分 类 ， 因 为 这 有 可 能 引入 错误 数据 。 例 如 ， 如 果 你 企图 将 泰坦 尼克 
号 乘客 数据 中 的 缺失 的 年 龄 置 成 -1， 那 将 弄 乱 年 龄 的 分 布 从 而 损害 到 机 器 学 习 模 型 。 有 些 
机 融 学 习 算 法 可 以 通过 忽略 的 办 法 来 处 理 这 些 缺 失 值 。 如 果 不 能 ， 则 需要 对 数据 进行 预 处 
理 ,要么 删除 缺失 值 ， 要 么 蔡 换 成 猜想 的 真实 值 。 这 种 蔡 换 缺失 数据 的 概念 称 为 插 补 (im- 
putation ) 。 
如 果 你 有 大 量 的 数据 而 上 只 有 少数 的 缺失 值 ， 则 放弃 观测 这 些 缺 失 数据 是 最 简单 的 办 法 。 
但 当 大 部 分 观测 都 有 缺失 值 时 ， 丢 奔 这 些 有 用 的 数据 会 降低 模型 的 预测 能 力 。 更 糟 的 是 ， 如 
果 这 些 观 测 的 缺失 值 不 是 随机 分 布 在 数据 集中 ， 那 么 这 种 方法 可 能 引起 意 想不到 的 偏差 。 
另 一 个 简单 的 办 法 是 ， 对 数据 实例 假定 时 间 排 序 规则 ， 并 用 前 一 行 中 对 应 列 的 值 蔡 换 缺 
失 值 。 若 没有 其 他 提示 信息 ， 则 假定 从 一 个 实例 到 下 一 个 实例 的 测量 标准 没有 发 生变 化 。 不 
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用 说 这 种 假设 是 错误 的 ， 但 再 错 也 错 不 过 把 缺失 值 设置 为 0， 特 别 是 对 于 一 系列 连续 观测 的 
数据 (昨天 的 温度 设置 成 今天 温度 的 估计 也 不 是 没有 道理 的 ) 。 对 于 极 大 型 的 数据 ， 你 也 不 
可 能 应 用 更 复杂 的 方法 了 ， 这 些 简单 办 法 就 显得 特别 有 用 。 

如 果 有 可 能 ， 使 用 大 比例 的 已 知 数据 猜测 缺失 值 是 比较 好 的 。 你 可 以 通过 列 的 平均 值 或 中 
值 来 替换 丢失 的 列 值 。 在 没有 其 他 信息 的 情况 下 ， 平 均值 最 接近 真实 值 。 根 据 列 值 的 分 布 ， 你 
可 能 想 使 用 中 位 数 ， 因 为 平均 值 对 于 极端 值 而 言 过 于 敏感 。 这 被 广泛 地 应 用 于 当今 的 机 天 学习 
中 ， 而 且 在 许多 场合 工作 得 很 好 。 但 当 把 所 有 的 缺失 值 蔡 换 成 单一 的 新 值 时 ， 你 就 抹杀 了 潜在 
的 与 其 他 变量 的 相关 性 ， 这 对 于 算法 检测 数据 中 的 常见 模式 来 说 ， 可 能 是 至 关 重 要 的 。 

如 果 有 可 能 的 话 ， 你 想 做 的 是 ， 使 用 所 有 的 数据 按照 你 的 意思 来 预测 缺失 变量 的 值 。 这 
听 起 来 是 不 是 很 熟悉 ? 这 正 是 机 器 学 习 要 做 的 ， 因 此 你 想 做 的 是 为 构建 机 器 学 习 模型 而 构建 
机 器 学 习 模 型 。 事 实 上 ， 典 型 的 方法 是 使 用 简单 的 算法 〈 如 线性 回归 或 逻辑 回归 ， 在 第 3 
章 进 行 讨论 ) 对 缺失 数据 进行 插 补 。 这 与 主要 使 用 的 机 带 学 习 算 法 不 一 定 相 同 。 在 任何 情 
况 下 ， 你 需要 创建 机 器 学 习 算 法 管道 ， 引 入 更 多 的 调节 机 制 ， 来 优化 终端 的 机 器 学 习 模型 。 

再 次 重申 ， 没 有 单一 的 最 好 的 办 法 处 理 真 正 缺 失 的 数据 ， 认 识 到 这 一 点 十 分 重要 。 本 市 
我 们 讨论 了 几 种 方式 ， 图 2-9 所 示 总 结 了 这 些 可 能 性 。 


































没有 


数值 型， 
0 将 抽 失 值 续 换 成 有 
意义 的 数值 ， 如 -1 和 -999 























大 数据 集 ， 缺失 数据 大 数据 集 ， 按 时 间 有 序 ， 
少 且 随机 缺失 数据 较 多 
删除 缺失 数据 前 面 的 数据 
的 实例 替代 缺失 的 数据 





是 ， 但 有 极端 
异常 值 









































使 用 简单 机 器 使 用 该 列 平均 值 该 列 中 值 
学 习 模型 插 补 插 补缺 失 值 播 补缺 失 值 


图 2-9 准备 机 器 学 习 模型 的 数据 时 ， 采 用 的 处 理 缺 失 值 的 决策 图 
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2.2.3 简单 特征 工程 


第 2 


章 ”实用 数据 处 理 





第 5 章 主要 讲述 特定 领域 和 高 级 特征 工程 技术 ,但 为 了 使 模型 更 好 ， 提 一 下 简单 数据 预 





处理 的 基本 思想 是 值得 的 。 





本 节 仍 然 使 用 泰坦 尼克 号 乘客 的 样本 数据 。 图 2-10 给 出 了 部 分 数据 的 另 一 视角 ， 重 点 











在 于 舱位 ( Cabin) 特征 。 知 不 经 过 处 理 ， 舱 位 特征 不 一 定 是 十 分 有 用 的 。 有 些 值 好 像 包 含 
多 个 舱位 ， 即 使 是 单个 舱位 貌似 也 不 能 算 作 一 个 好 的 分 类 特征 ， 因 为 所 有 舱位 都 在 独立 的 





“ 桶 ” 
任何 的 预测 能 

















里 。 例 如 ， 假 定 你 要 预测 某 个 乘客 是 否 幸存 ， 乘 坐 某 个 舱位 还 是 隔壁 舱位 似乎 不 会 有 
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图 2-10 在 泰坦 尼克 号 乘客 数据 中 ， 

















些 舱 位 值 包含 多 个 舱位 ， 而 男 一 些 则 没有 舱位 信息 ， 








乘坐 船 的 哪 一 部 分 ， 
作为 分 类 特征 ， 数 字 作 为 数值 特征 ， 假 定 它 们 表示 船 的 不 同 部 分 。 
图 ， 并 能 得 出 每 个 舱位 所 在 的 楼 层 和 位 于 船 的 哪 


船体 分 布 





且 舱 位 〈Cabin) 本 身 也 不 是 一 个 好 的 分 类 特征 


对 于 是 否 能 够 幸存 至 关 重 要 。 对 于 单个 舱位 ID， 你 可 以 提取 字母 
你 可 以 得 到 泰坦 尼克 号 的 
边 ， 是 否 面临 大 海 ， 还 是 在 船 的 





























内 部 ， 如 此 等 等 。 这 些 方法 不 能 处 理 复合 舱位 的 ID， 但 复合 舱位 貌似 邻近 ， 只 提取 第 一 个 





舱位 ID 就 可 以 了 。 你 可 以 在 一 个 新 特征 中 包含 舱位 数量 ， 
总 之 ， 











这 与 预测 的 结果 可 能 是 相关 的 。 
你 将 从 舱位 这 个 特征 创建 3 个 新 的 特征 。 清 单 2-2 示 出 了 这 个 简单 的 提取 代码 。 














清单 2-2 ”泰坦 尼克 号 舱位 的 简单 特征 提取 


def cabin features (data): 


features = [] 


for cabin in data: 


cabins =Cabiinroplit(". "y 
n_cabins = Len(cabins) 
# First char is thecabin char 
信和 和 

cabin_char =cabins [0] [0] 
except IndexError: 

vabin char se"X" 

n_cabins =0 
#The rest is the cabin number 
Lh 

cabin num= int (cabins{[0]1{1:]) 


总 区 忆 D 
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cabin num = -1 
# Add 3 features for eachpassanger 
features.append( [cabin char, cabin num, n_cabins]) 


return features 


到 现在 为 止 ， 什 么 是 特征 工程 应 该 没什么 异议 了 : 应 用 我 们 关于 数据 或 领域 的 相关 知 
识 , 使 用 已 经 存在 的 特征 创建 新 特征 来 提高 原 数据 的 价值 。 就 如 前 面 提 到 的 一 样 ， 你 将 看 到 
高 级 特征 工程 和 常见 的 数据 类 型 ， 这 些 数据 类 型 需要 处 理 后 应 用 到 大 多 数 算法 中 。 这 些 包括 
自由 格式 的 文本 特征 ， 如 网 页 或 Tweet。 其 他 重要 的 特征 可 以 从 图 像 、 视 频 和 时 间 序 列 等 数 
据 中 提取 。 


2.2.4 数据 规范 化 


有 些 机 器 学 习 算 法 要 求 规范 化 了 (normalized) 的 数据 ， 也 就 是 说 ， 每 个 被 操作 的 单独 
特征 需要 有 相同 的 度量 单位 。 相 对 于 其 他 特征 来 说 ， 特 征 值 的 取 值 范围 会 影响 特征 的 重要 性 
(权重 ) 。 如 果 一 个 特征 的 值 在 0 ~ 10 之 间 ， 而 另 一 个 在 0 ~1 之 间 ， 那 么 相对 于 第 二 个 特征 
而 言 ， 第 一 个 特征 的 权重 就 是 10。 有 了 时 你 可 能 想 突 出 某 个 特征 的 权重 ,但 正确 的 做 法 是 让 
机 器 学 习 算 法 区 分 特征 之 间 的 相对 权重 。 为 了 确保 特征 之 间 的 平等 ， 你 需要 对 数据 进行 规范 
化 。 通 常数 据 规范 的 取 值 范围 是 0~1 或 -1~1。 

让 我 们 来 考虑 这 种 规范 化 是 如 何 进行 的 。 清 单 2-3 所 示 的 代码 实现 了 这 一 功能 。 对 于 
每 个 特征 ， 你 要 使 数据 分 布 在 最 小 值 (典型 的 是 -1) 和 最 大 值 (典型 的 是 1) 之 间 。 为 了 
达到 这 一 目标 ， 你 把 数据 除 以 数据 总 的 取 值 范围 ?>， 以 使 结果 落 入 0 ~ 1 之 间 。 从 这 里 开始 ， 
你 可 以 通过 乘 以 这 个 转换 后 的 值 ， 扩 展 到 需要 的 范围 (2， 这 里 是 -1 ~1 之 间 )。 最 后 ， 你 
把 起 始点 从 0 移 到 需要 的 最 小 值 (如 -1)。 


清单 2-3 ”特征 规范 化 










































































def normalize_feature(data, f min= -1.0, f max=1.0): 
d min, d max =min (data), max (data) 
factor = (f_max -f min) /(d max-d min) 
normalized =f min+ (data -d_min)* factor 


return normalized, factor 


注意 ,你 返回 的 是 规范 化 的 数据 和 规范 化 (所 采用 的 ) 系数 。 之 所 以 这 样 做 ， 是 因为 
新 的 数据 (例如 ， 用 于 预测 的 数据 ) 也 需要 进行 同样 的 规范 化 ， 以 产生 有 意义 的 结果 。 这 
也 就 意味 着 ， 机 器 学 习 模 型 构建 人 员 应 记得 某 个 特殊 的 特征 是 如 何 规范 化 的 ， 还 要 保存 相关 
联 的 值 ( 系数 和 最 小 值 ) 。 

我 们 把 实现 接收 新 数据 、 规 范 化 系数 和 规范 化 最 小 值 并 重新 规范 化 的 函数 的 任务 交 由 读 
者 自己 来 实现 。 

当 打 开 各 式 各 样 数据 的 工具 箱 并 研究 各 类 数据 时 ， 你 会 发 现 每 个 数据 集 都 有 独到 的 品质 
和 挑战 。 但 包含 多 个 变量 的 大 批量 数据 ， 只 通过 观察 表格 显示 的 数据 是 很 难 全 面 理解 的 。 要 























 ” 即 最 大 数据 值 减 去 最 小 数据 值 的 差 。 一 一 译 者 注 
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2 章 实用 数据 处 理 


攻 


获得 数据 中 隐藏 的 信息 ， 图 形 化 视图 工具 是 必 不 可 少 的 。 


2.3 数据 可 视 化 


在 数据 收集 / 预 处 理 和 机 器 学 习 模型 构建 之 间 ， 有 一 个 非常 重要 的 步骤 ， 那 就 是 数据 可 
视 化 。 在 进行 深入 机 器 学 习 和 预测 之 前 ， 数 据 可 视 化 可 对 训练 特征 和 目标 变量 进行 清晰 的 检 
查 。 使 用 简单 的 可 视 化 技术 ， 可 以 探索 输入 特征 和 输出 的 目标 变量 之 间 的 关系 ， 这 将 引导 你 
构建 模型 ， 帮 助 你 理解 机 器 学 习 模 型 和 预测 机 制 。 更 进一步 地 说 ， 可 视 化 技术 可 以 告诉 你 训 
练 集 的 代表 性 如 何 ， 并 告诉 你 可 能 缺乏 的 实例 类 型 。 

本 节 着 重 讲述 可 视 化 目标 变量 和 输入 特征 之 间 关 系 的 方法 。 我 们 推荐 4 种 可 视 化 技术 : 
马赛 克 图 ( Mosaic plots ) 、 盒 图 ( Box plots)、 密 度 图 ( Density plots) 和 散 点 图 (Scatter 
plots) 。 每 种 技术 适用 于 不 同 的 类 型 (数值 型 或 分 类 型 ) ， 如 图 2-11 所 示 。 





























输入 特征 
分 类 型 数值 型 
笑 | ”马赛克 图 盒 图 
响 型 (2.3.1-) (2.3.2 节 ) 
应 
变 
重 
向 | 。 密度 图 散 点 图 
型 (2.3.3 节 ) (2.3.4 节 ) 














图 2-11 4 种 可 视 化 技术 ， 由 需要 绘制 的 输入 特征 和 响应 变量 的 类 型 来 安排 








进一步 阅读 
统计 可 视 化 和 数据 绘图 的 书 有 很 多 。 如 果 你 深入 研究 这 个 主题 ， 可 以 看 看 下 面 的 


经 典 教科 书 《 定 量 信 息 可 视 化 (The Visual Display of Quantitative Information )》， 爱 
德 华 . 塔 夫 特 著 (Graphics 出 版 社 ，2001) ， 详 细 讲 述 了 用 于 分 析 和 表示 的 数据 可 视 化 。 
e@ 对 于 民 语 言 的 用 户 ，《R 图 形 化 手册 (R Graphics Cookbook)》， 章 孝 总 著 (0 


Reilly 出 版 社 , 2013) ， 涵 盖 了 R 语言 的 数据 可 视 化 ， 从 基础 到 高 级 的 话题 ， 还 有 


示例 代码 可 供 使 用 。 

e 对 于 Python 用 户 , 《Python 数据 可 视 化 手册 ( Python Data Visualization Cook- 
book )》， 伊 蕊 尔 米 洛 瓦 诺 维 奇 ， 迪 米 瑞 ' 弗 斯 和 杰 赛 谱 ， 费 提 格 利 著 (Packt 出 
版 社 ，2015)， 涵 盖 了 Matplotlib 基础 。 
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2.3.1 马赛 元 图 


马赛 克 图 ( Mosaic plots) 允许 可 视 化 两 个 或 更 多 分 类 变量 之 间 的 关系 。 在 R、SAS、Py- 
thon 和 其 他 科学 或 统计 学 编程 语言 中 都 包含 马赛 克 图 绘图 功能 (软件) 。 

为 了 演示 马赛 克 图 的 使 用 ， 你 将 用 它 来 显示 泰坦 尼克 号 乘客 性 别 和 垃 存 与 否 之 间 的 关 
系 。 马 赛 克 图 从 长 度 为 1 的 正方 形 开始 ， 然 后 将 正方 形 垂 直 划 分 成 一 系列 矩形 ， 每 个 矩形 的 
宽度 与 对 应 的 输入 特征 所 在 比例 相同 。 例 如 ， 在 泰坦 尼克 号 的 数据 中 ，24% 的 乘客 为 女性 ， 
因此 将 单位 长 度 为 1 的 正方 形 ， 沿 X 轴 划 分 成 面积 为 24% 和 76% 的 两 个 矩形 。 

接 下 来 ， 对 每 个 矩形 以 水 平 线 划 分 成 更 小 的 矩形 ， 小 矩形 的 相对 面积 与 数据 实例 落 入 相 
应 响应 变量 之 内 的 百分比 相对 应 。 例 如 ， 泰 坦 尼克 号 乘客 女性 有 74% 的 幸存 (这 是 给 定 乘 
客 性 别 为 女性 的 ， 幸 存 的 条 件 概 率 )。 因 此 ， 女 性 矩形 被 水 平分 成 面积 为 74% 和 26% 的 两 部 
分 。 对 男性 矩形 做 同样 的 处 理 (对 于 男性 ， 分 解 比例 为 19% 和 81% ) 。 

结果 就 是 性 别 和 幸存 之 间 的 可 视 化 关系 。 如 果 没 有 关系 ， 则 水 平分 割 大体 在 Y 轴 的 位 
置 。 若 存在 强 关 系 ， 则 水 平分 割 将 会 很 多 。 为 了 提高 视觉 效果 ， 相 对 于 自 变 量 输入 特征 和 响 
应 变量 ,和 矩形 以 不 同 的 阴影 表示 关系 的 统计 学 意义 ， 大 负 残 差 (“ 低 于 期 望 值 ”") 以 深 色 阴 
影 表 示 ， 大 正 残 差 (“高 于 期 望 值 ") 以 浅 色 阴 影 表 示 ， 如 图 2-12 所 示 。 



































泰坦 尼克 号 数据 的 马赛 克 图 一 一 性 别 与 幸存 的 关系 
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图 2-12 马赛 友 图 显示 了 泰坦 尼克 号 乘客 性 别 与 是 否 幸 存 之 间 的 关系 。 显 示 女 性 幸存 比例 于 高 于 
(男性 比例 低 于 ) 期 望 值 (如 果 是 否 幸存 与 性 别 无 关 ) ,“ 妇 女 和 孩子 优先 。 











这 就 告诉 你 在 构建 机 器 学 习 模 型 ， 预 测 泰坦 尼克 号 幸存 者 时 ， 性 别 是 应 该 包含 的 一 个 重 
要 因素 。 这 还 能 使 你 清楚 地 检查 性 别 和 幸存 之 间 的 关系 : 事实 上 ， 女 性 在 灾难 中 的 幸存 率 较 
高 ， 这 是 常识 。 这 就 为 你 的 数据 的 合法 性 增加 了 男 一 层 保险 。 这 样 的 数据 可 视 化 还 可 以 帮助 
你 理解 和 验证 机 带 学 习 模 型 。 

图 2-13 所 示 的 马赛 克 图 显示 了 是 否 幸存 与 乘客 等 级 (头等 、 二 等 和 三 等 ) 之 间 的 关 
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系 。 和 预期 的 一 样 ， 头 等 乘客 在 沉船 中 幸存 率 较 高 。 很 明显 ， 乘 客 等 级 也 是 机 需 学 习 模型 预 
测 幸存 的 一 个 重要 因素 ， 关 系 正 如 你 预计 的 那样 ; 等 级 越 高 ， 幸 存 率 越 大 。 


泰坦 尼克 号 数据 马赛 克 图 一 一 乘客 等 级 与 幸存 率 
乘客 等 级 











入 其 天 氏 





图 2-13 泰坦 尼克 乘客 等 级 与 幸存 率 关 系 的 马赛 克 网 


2.3.2 仿 图 


盒 图 (Box plots) 是 数值 变量 可 视 化 分 布 的 标准 统计 学 绘图 技术 。 对 于 单个 变量 ， 盒 
描述 的 是 其 分 布 的 四 分 位 图 (quartile) : 最 小 值 ， 第 25 个 百分点 ， 中 间 值 ， 第 75 个 百分点 
和 最 大 值 。 单 个 变量 的 盒 图 对 于 洞察 变量 值 的 分 布 中 心 、 扩 展 和 偏 移 是 十 分 有 用 的 ， 另 外 ， 
还 可 以 发 现 离 群 值 的 存在 。 

如 果 并 行 显示 ， 还 可 以 使 用 盒 图 比较 分 布 情况 ， 特 别 是 在 观察 数值 特征 作为 各 种 分 类 响 
应 变量 的 函数 时 的 分 布 差异 。 返 回 到 泰坦 尼克 号 的 例子 ， 你 可 以 通过 并 行 盒 图 比较 幸存 者 和 
死亡 者 的 年 龄 差异 ， 如 图 2-14 所 示 。 在 这 个 例子 中 ， 乘 客 幸存 者 和 死亡 者 的 年 龄 分 布 没有 
明显 差异 ， 因 为 两 个 盒 图 看 起 来 形状 和 位 置 十 分 相似 。 

注意 ， 可 视 化 技术 的 局 限 性 是 十 分 重要 的 。 可 视 化 并 不 能 成 为 机 器 学 习 模型 的 替代 品 ! 
机 带 学 习 模 型 能 够 发 现 隐藏 在 数据 内 部 的 微妙 联系 ， 这 些 联系 并 不 能 通过 简单 的 可 视 化 暴露 
出 来 。 你 不 能 自动 排除 那些 可 视 化 显示 与 目标 变量 关系 不 太 明 显 的 特征 。 这 些 特征 如 果 与 其 
他 相关 特征 连 在 一 起 ， 仍 可 能 与 目标 有 很 强 的 关系 。 例 如 ， 虽 然 年 龄 与 幸存 之 间 关 系 不 太 明 
显 ， 那 可 能 是 对 于 三 等 舱 乘 客 ， 年 龄 就 非常 有 预测 性 (或 许 是 因为 三 等 舱 乘 客 中 ， 年 轻 强 
壮 的 乘客 比 年 老 的 乘客 要 容易 到 达 甲 板 ) 。 好 的 机 器 学 习 模 型 应 能 够 发 现 并 暴露 这 样 的 关 
系 ， 因 此 可 视 化 技术 不 能 单独 地 把 年 龄 排除 在 特征 之 外 。 

图 2-15 所 示 的 盒 图 显示 了 乘客 票 价 和 幸存 结果 之 间 的 关系 。 在 左 侧 图 中 ， 票 价 分 布 是 
高 度 偏 移 的 (有 许多 小 的 值 和 一 些 大 的 离 群 值 )， 使 得 这 种 差异 难于 可 视 化 。 这 可 以 通过 对 
票 价 进行 简单 的 转换 (转换 成 票 价 的 平方 根 ， 如 右 图 所 示 ) 来 进行 补救 ， 使 得 这 种 差异 变 
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泰坦 尼克 号 数据 盒 图 一 一 乘客 年 龄 和 幸存 的 关系 
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75 分 位 值 
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是 否 幸存 ? 
图 2-14 盒 图 显示 了 泰坦 尼克 号 乘客 年 龄 与 是 否 幸存 之 间 的 关系 。 幸 存 者 与 死亡 者 之 间 的 
年 龄 分 布 没 有 明显 差异 〈 单 这 一 项 尚 不 能 作为 从 机 天 学 习 模型 中 排除 年 龄 这 一 因素 的 依据 ， 
因为 它 仍 有 可 能 作为 很 有 预测 性 的 因素 ) 


























得 比较 明显 。 票 价 和 生存 状况 关系 明显 : 和 预期 的 一 样 ， 付 费 越 多 的 生存 率 越 大 。 因 此 ， 票 
价 数 额 应 包含 在 模型 中 ， 因 为 你 希望 机 器 学 习 模 型 能 发 现 这 种 正 关 系 。 
乘客 票 价 和 幸存 率 的 关系 











泰坦 尼克 号 数据 盒 图 








开平 方 ( 票 价 数额 ) 











是 否 幸存 ? 是 否 幸存 ? 
图 2-15 盒 图 显示 了 泰坦 尼克 号 乘客 票 价 和 是 否 幸存 之 间 的 关系 。 
平方 根 转换 使 得 乘客 票 价 越 高 幸存 率 越 大 (平均 ) 的 关系 更 明显 
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2.3.3 密度 图 


现在 我 们 转换 到 数值 而 不 是 分 类 响应 变量 。 当 输入 变量 为 分 类 类 型 时 ， 你 可 以 使 用 密度 
图 (Density plots) 可 视 化 显示 两 个 变量 间 的 关系 ， 也 可 以 使 用 盒 图 。 

密度 图 可 显示 单个 变量 比 盒 岁 更 详细 的 分 布 信息 。 首 先 ， 对 变量 的 平滑 的 〈 典 型 的 是 
代用 民 西 糙 济 林 (kemel smoothing) ) 概率 分 布 进行 估计 。 接 着 ， 绘 制 分 布 曲线 表示 变 

能 的 值 。 通 过 绘制 响应 变量 对 输入 特征 的 每 个 分 类 的 单个 密度 图 ， 你 可 以 很 容易 地 将 响 

re 注音， 密度 图 与 直方 图 类 似 ,但 它 的 平 
a Wey 

在 下 个 例子 中 ,将 使 用 MPG (英里 /加 仑 ) 汽车 数据 ” 。 该 数据 集 包 含 1970 ~ 1982 年 大 
批 车 辆 的 油耗 〈 英 里 /加 仑 ) ， 外 加 每 辆 车 的 马力 、 重 量 、 原 产地 和 车 型 年 份 信息 。 图 2-16 
所 示 的 密度 图 显示 了 MPG 和 原 产地 (美国 、 欧 洲 或 亚洲 ) 的 关系 。 从 图 中 来 看 ， 很 明显 ， 
亚洲 的 车 MPG 较 高 ， 接 着 是 欧洲 的 车 ， 最 后 是 美国 制造 的 车 。 因 此 ， ee 
型 的 重要 的 预测 因子 。 更 进一步 地 ， 密 度 图 中 的 每 条 曲线 都 有 一 些 次 要 的 “起 伏 ”， 这 可 能 
与 车 的 类 型 有 关 (例如 ， 卡 车 、 轿 车 和 混合 动力 车 )。 因 此 ， 对 这 些 次 要 “起 伏 ” ee 
可 保证 充分 理解 它们 的 性 质 ， 并 作为 特征 工程 进一步 的 指导 
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图 2-16 汽车 MPG 数据 的 密度 图 ， 显 示 了 不 同 地 区 制造 商 的 汽车 MPG 分 布 。 
很 明显 ， 亚 洲 的 车 MPG 最 高 ， 美 国 的 车 MPG 最 低 。 制 造 商 地 区 即 是 MPG 的 强 指示 因子 





























名 ”MPG 汽车 数据 集 可 从 https ://archive. ics. uci. edu/ ml/ datasets/ Auto + MPG 获得 ， 是 R 语言 的 内 置 数 据 集 ， 通 过 
data (mtcars) 使 用 。 
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2.3.4 散 点 图 


散 点 图 (Scatter plots) 是 简 
图 工具 之 一 。 在 散 点 图 中 ， 特 行 








简单 的 表示 两 个 数值 变量 间 关 系 的 视图 工具 ， 











是 最 流行 的 给 
F 值 根据 啊 应 变量 的 值 进行 绘制 ， 每 个 数据 实例 表示 为 一 个 


点 。 散 点 图 虽然 简单 ， 但 却 既 可 以 揭示 输入 变量 和 响应 变量 之 间 的 线性 关系 ， 又 可 以 揭示 非 


线性 关系 。 





图 2-17 所 示 显 示 了 两 个 散 点 图 : 











MPG 的 关系 。 在 两 种 情况 下 ， 


























个 是 车 身 重 量 和 MPG 的 关系 ， 一 个 是 车 型 年 份 与 
输入 特征 与 MPG 之 间 存 在 着 明显 的 联系 ， 因 此 ， 这 两 个 特征 





都 应 用 在 建 模 中 。 在 左 图 中 ， 数 据 呈 明显 的 香 巷 形 ， 说 明 MPG 与 车 身 重量 呈 反 比例 非 线性 
关系 。 相 似 地 ， 右 图 显示 了 MPG 与 车 型 年 份 之 间 的 线性 正比 例 关系 。 两 幅 图 清楚 地 显示 了 
输入 特征 对 于 预测 MPG 是 十 分 有 用 的 ， 并 且 都 与 所 期 望 的 关系 一 致 。 
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图 2-17 显示 英里 /加 仑 与 车 映 重量 ( 左 ) 和 车 型 年 份 ( 右 ) 关系 的 散 点 图 


2.4 总 结 


本 童 介绍 了 在 实用 机 器 学 习 








习 中 有 关 数 据 的 重要 内 容 。 


编译 训练 数据 包括 以 下 步骤 : 


1) 决定 包括 哪些 输入 特征 





ey 


2) 找 出 获取 目标 变量 真实 值 的 方法 。 

3) 确定 何 时 收集 到 了 足够 的 数据 。 

4) 留心 偏颇 或 不 具有 代表 性 的 训练 数据 。 
训练 数据 预 处 理 包括 以 下 步 又 : 


1) 记录 分 类 类 型 特征 。 
2) 处 理 缺 失 数据 。 





3) 特征 规范 化 (针对 某 些 机 带 学 习 方法 ) 。 
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4) 特征 工程 。 
4 种 有 用 的 数据 可 视 化 工具 是 马赛 克 图 、 盒 图 、 密 度 图 和 散 点 图 : 


输入 特征 







响应 变量 





2.5 ”本章 术语 


本 章 术 语 见 表 2-1。 
表 2-1 本 章 术语 


















































虚拟 变量 /是 元 ( dummy variable) 指示 一 个 观测 数 是 否 为 某 个 分 类 的 成 员 的 二 进 制 特征 
真实 值 ( ground truth) 训练 或 测试 集中 已 知 的 目标 变量 或 标记 的 值 

缺失 数据 ( missing data) 实例 子 集中 ， 值 未 知 的 特征 

搬 补 (imputation ) 用 数值 或 分 类 数据 蔡 换 缺失 数据 的 未 知 值 








在 准备 好 了 模型 数据 之 后 ， 即 可 开始 构建 机 器 学 习 模 型 。 
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第 3 章 
建 模 和 预测 


本 章 导读 

e 通过 机 器 学 习 建 模 发 现 数据 中 的 关系 。 
e 使 用 模型 进行 预测 和 推理 。 

e 建 模 分 类 模型 。 

e 构建 回归 模型 。 


前 一 章 涵 盖 了 数据 收集 、 预 处 理 和 可 视 化 的 指导 及 原则 。 机 顺 学 习 工 作 流 程 的 下 一 步 工 
作 就 是 使 用 那些 数据 研究 和 揭示 输入 特征 和 目标 之 间 的 关系 。 在 机 天 学 习 中 这 一 步骤 就 是 通 
过 数据 构建 统计 模型 。 本 章 介绍 建 模 基础 并 开始 构建 自己 的 模型 。 与 大 多 数 机 器 学 习 教 科 书 
不 同 的 是 ,我 们 没有 花费 太 多 的 时 间 讨论 各 种 建 模 方法 ， 而 是 把 精力 集中 在 总 体 概念 上 。 这 
将 帮助 你 从 总 体 上 理解 机 器 学 习 建 模 ， 并 使 你 能 够 快速 地 构建 自己 的 模型 以 解决 实际 问题 。 
如 果 想 要 了 解 特定 机 器 学 习 的 建 模 技 术 ， 请 参考 附录 。 

我 们 从 更 高 层次 的 视角 介绍 统计 学 建 模 ， 重 点 讨论 机 器 学 习 建 模 的 总 体 概念 ， 例 如 ， 建 
模 的 目的 和 模型 的 使 用 方法 ， 并 简洁 地 讨论 了 现行 的 各 种 建 模 技 术 及 其 优 缺点 。 然 后 ， 我 们 
深入 研究 最 常用 的 两 种 机 融 学 习 模型 : 分 类 模型 和 回归 模型 。 在 这 些 部 分 中 ， 我 们 更 详细 地 
描述 了 如 何 用 自己 的 数据 进行 建 模 。 我 们 还 强调 了 几 个 常用 的 实用 算法 ， 以 “算法 高 亮 ” 
的 形式 贯穿 于 整个 章节 。 















































3.1 基础 机 器 学 习 建 模 





机 器 学 习 的 目标 是 发 现 数据 中 的 模式 和 关系 并 予以 应 用 。 这 个 发 现 过 程 通过 建 模 技术 来 
完成 ， 建 模 技 术 是 30 年 来 统计 学 、 计 算 机 科学 和 应 用 数学 发 展 的 结晶 。 这 些 方法 有 简单 的 ， 
也 有 超级 复杂 的 ， 但 都 有 一 个 共同 的 目标 : 估计 输入 特征 和 目标 变量 之 间 的 函数 关系 。 

这 些 方法 也 有 共同 的 工作 流程 ， 如 图 3-1 所 示 ， 利 用 历史 数据 构建 和 优化 模型 ， 反 过 
来 再 用 模型 对 新 数据 进行 预测 。 本 节 将 为 后 面 的 实用 章节 做 准备 。 在 下 一 节 中 ， 你 将 看 到 机 
40 
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器 学 习 建 模 的 总 体 目 标 ， 接 下 来 你 将 看 到 机 咒 学 习 产 品 如 何 使 用 ， 以 及 区 分 机 器 学 习 算 法 的 


一 些 重要 方面 。 








图 3-1 基本 机 器 学 习 工 作 流 程 


3.1.1 寻找 输入 和 目标 间 的 关系 


让 我 们 以 一 个 例子 来 讨论 机 咒 学 习 建 模 。 回 想 一 下 第 2 章 中 的 汽车 MPG 数据 。 数 据 集 


包含 了 汽车 的 各 种 度量 参数 ， 如 制造 商 地 区 、 车 型 年 份 、 车 身 重量 、 
的 目的 是 理解 输入 特征 和 车 辆 的 MPG 之 间 的 关系 。 

输入 特征 常用 符号 X 表示 ， 当 有 多 个 输入 特征 时 ， 以 下 标 加 以 
表示 制造 商 地 区 ，X, 表 示 车 型 年 份 ，X; 表 示 车 身 重量 ， 如 此 等 等 。 
粗 体 XX 表 示 。 相 似 地 ， 目 标 变 量 常用 Y 表示 。 

输入 X 和 输出 Y 之 间 的 关系 ， 可 简单 地 表示 成 如 下 公式 : 




















解释 特征 
目 标 Xi, Pe 3 
Y=f(X)+&e 


模型 或 信号 ”错误 或 噪声 








马力 和 气缸 数 。 数 据 集 


区 分 。 例 如 ， 我 们 说 X， 
所 有 输入 特征 的 集合 以 








在 这 个 等 式 中 , f 表 示 输 入 变量 和 目标 Y 之 间 的 未 知 函 数 。 机 融 学 习 的 目标 是 使 用 数据 


精确 地 估计 函数 f。 符 号 e 表 示 数 据 中 的 随机 噪声 ， 它 与 函数 无 关 。 


函数 f 通 常 被 称 为 信号 





(signal) ， 而 随机 变量 s 被 称 为 噪声 ( noise) 。 机 器 学 习 的 挑战 是 使 用 数据 确定 真实 的 信号， 


而 忽略 噪声 。 
在 汽车 MPG 实例 中 ， 汽 车 的 MPG 函数 { 是 这 辆 车 诸多 输入 特 行 
知道 该 函数 ， 那 么 就 可 以 知道 任何 车 辆 的 MPG， 真 实 的 或 推测 的 














FE 的 函数 。 如 果 你 确切 地 
。 但 这 会 有 很 多 如 下 的 
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(可 能 不 只 这 些 ) 噪声 s: 

。 由 于 测量 设备 的 不 精确 性 引起 的 MPG 测量 不 准确 一 一 测量 噪声 。 

e 制造 过 程 中 的 变化 ， 使 得 生产 线 上 每 辆 车 的 MPG 不 同一 一 生产 过 程 噪声 。 

。 输入 特征 的 测量 误差 ， 如 重量 和 马力 。 

。 缺乏 确切 决定 MPG 的 更 广泛 的 特征 集 。 

使 用 从 几 百 辆 车 中 获得 的 带 有 噪声 的 数据 ， 机 器 学 习 方 法 使 用 建 模 技术 找 出 函数 节 的 一 
个 好 的 估计 。 这 个 估计 结果 被 称 为 机 器 学 习 模型 (ML model) 。 

在 3.2 节 和 3.3 节 ， 我 们 详细 介绍 这 些 机 器 学 习 建 模 技 术 是 如 何 工作 的 。 事 实 上 ， 大 量 
的 机 器 学 习 学 术 文 献 介绍 了 如 何 最 好 地 估计 函数 f。 


3.1.2 寻求 好 模型 的 目的 


假定 你 已 有 了 函数 的 好 的 估计 ， 那么 下 一 步 呢 ?机 带 学 习 有 两 个 主要 目标 ， 预测 
(prediction) 和 推理 (inference)。 

预测 ( prediction ) 

当 有 了 模型 之 后 ， 你 就 可 以 将 新 的 数据 X,,, 的 特征 插入 到 模型 中 ， 以 产生 对 目标 Y 的 
预测 。 在 数学 表示 中 ， 若 f. 表示 机 器 学 习 对 f 的 估计 (回想 一 下 , f 表 示 特 征 和 目标 之 间 的 
真实 关系 ) ， 那 么 就 可 以 将 新 数据 带 和 下面 的 方程 来 完成 预测 : 

Yaa =f, ( 和 ) 

这 些 预测 结果 可 用 于 对 新 数据 的 决策 ， 或 被 送 到 自动 化 的 工作 流 中 。 

回 到 汽车 MPG 实例 中 ,假定 你 已 经 有 了 机 带 学 习 模 型 f,， 它 表示 车 的 MPG 和 输入 指 
标 之 间 的 关系 。 这 种 预测 允许 你 提问 如 下 的 问题 “在 已 知 输入 指标 的 情况 下 ， 和 车 辆 的 MPG 
将 会 怎样 ?” 这 种 预测 能 力 对 于 汽车 的 设计 是 十 分 有 用 的 ， 因 为 它 允 许 工 程 师 评估 不 同 的 设 
计 理 念 对 MPG 的 影响 ， 并 保证 单个 理念 符合 MPG 的 要 求 。 

预测 是 机 需 学 习 系 统 最 常见 的 功能 也 是 许多 机 器 学 习 应 用 的 核心 ， 包 括 以 下 几 个 方面 : 

。 解密 手写 数字 或 录音 。 

。 股票 市 场 预测 。 

e 预报 。 

。 预测 哪 种 用 户 最 有 可 能 单 击 、 转 换 或 购买 。 

e 预测 哪 类 用 户 将 需要 产品 支持 、 哪 类 用 户 可 能 退出 。 

。 确定 哪些 交易 是 欺诈 的 。 

。 提出 建议 。 

因为 机 器 学 习 预 测 的 高 准确 性 和 快速 性 ， 所 以 每 天 都 被 数 以 千 计 的 公司 应 用 于 预测 
目的 。 

推理 (inference) 

除了 对 新 数据 进行 预测 外 ， 还 可 以 把 机 需 学 习 模 型 用 于 更 好 地 理解 输入 特征 和 输出 目标 
之 间 的 关系 。 好 的 函数 {f 的 估计 可 使 你 能 够 回答 变量 问 有 关 的 深层 次 问题 。 例 如 : 

。 哪些 输入 特征 与 目标 变量 之 间 有 较 强 的 关系 ? 
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e 这 些 关系 是 正 还 是 负 ? 

e 函数 { 到 底 是 一 个 简单 关系 ， 还 是 一 个 更 微妙 的 非 线性 关系 ? 

这 样 的 推理 可 以 告诉 你 很 多 数据 产生 过 程 中 的 东西 ， 并 给 出 驱动 数据 关系 因素 的 线索 。 
回 到 汽车 MPG 实例 ， 你 可 以 使 用 推理 回答 这 样 的 问题 :“ 产 地 对 MPG 有 无 影响 ?”“ 哪 些 输 
入 与 MPG 是 强 关系 ?”“ 它 们 是 负 相关 还 是 正 相 关 ?” 回答 这 些 问 题 ， 可 以 给 出 汽车 MPG 的 
驱动 因素 ， 并 给 出 如 何 制 造 高 MPG 汽车 的 线索 。 


3.1.3 建 模 方 法 类 型 


现在 到 了 启用 统计 学 知识 并 深入 研究 机 器 学 习 建 模 的 数学 细节 的 时 候 了 。 不 要 担心 ,我 
们 将 保持 讨论 的 宽泛 性 ， 且 对 于 没有 统计 学 背景 的 读者 也 能 够 理解 ! 

统计 学 模型 在 预测 精确 性 和 模型 的 可 解释 性 之 间 往 往 有 一 个 权衡 。 简 单 模型 易于 解释 ， 
但 不 能 产生 精确 的 预测 (尤其 是 对 于 复杂 的 关系 ) 。 复 杂 的 模型 可 产生 精确 的 预测 ， 但 可 能 
像 个 黑 盒子 难于 解释 。 

另外 ， 机 器 学 习 模 型 只 有 两 种 类 型 : 参数 (parametric ) 机 器 学 习 模 型 和 无 参数 (non- 
parametric) 机 器 学 习 模 型 。 它 们 的 本 质 区 别 是 ， 参 数 机 器 学 习 模 型 假定 函数 f 有 特定 的 形 
式 ， 而 无 参数 机 器 学 习 模型 则 没有 这 个 限制 。 因 此 ， 参 数 机 器 学 习 方法 是 简单 的 、 可 解释 
的 ， 但 精确 性 较 差 。 相 反 ， 无 参数 机 器 学 习 方法 可 解释 性 较 差 ， 但 对 于 大 多 数 问题 更 准确 。 
证 我们 仔细 了 解 一 下 参数 机 器 学 习 模 型 和 无 参数 机 器 学 习 模 型 。 

参数 方法 

最 简单 的 参数 方法 就 是 线性 回归 。 在 线性 回归 中 ， 函 数 f 假 定 为 输入 数值 的 线性 组 合 。 
标准 的 线性 回归 模型 如 下 : 

































































f(X) =B, +X, xB, +X, xB, + 

在 这 个 等 式 中 ， 未 知 参 数 B, ，B, ，… 可 被 解释 为 (相对 于 每 个 输入 的 ) 截 距 和 和 斜率 参 
数 。 当 在 某 些 数据 上 应 用 参数 模型 时 ， 就 可 以 估计 这 些 未 知 参数 的 最 佳 值 。 反 过 来 把 这 些 估 
计 值 (参数 ) 和 新 数据 代入 方程 {(X) 就 产生 预测 。 

其 他 常用 的 参数 模型 包括 逻辑 回归 ， 多 项 式 回 归 ， 线 性 差别 分 析 ， 二 次 差别 分 析 ，( 参 
数 ) 混合 模型 和 朴素 贝 叶 斯 〈 当 使 用 参数 密度 估计 时 ) 。 为 了 选择 参数 模型 ， 经 常 使 用 的 方 
法 包括 岭 回 归 (ridge regression ) ，Lasso 回归 (lasso) 和 主 成 分 回归 (principal components 
regression) 。 其 中 ， 某 些 方法 的 细节 在 本 章 的 稍 后 介绍 中 给 出 ， 而 对 于 每 个 方法 的 详细 描述 
参见 附录 。 

参数 方法 的 缺点 是 对 于 函数 f 真 实 形式 的 假设 。 在 实际 问题 中 ， 特 别 是 存在 许多 输入 变 
量 〈X) 的 情况 下 ， 函 数 f 不 会 是 如 此 简单 的 形式 。 在 这 些 条 件 下 ， 参 数 方法 对 数据 的 适应 
性 差 ， 导 致 不 准确 的 预测 。 因 此 ， 大 多 数 的 机 器 学 习 实 用 方法 都 依赖 于 非 参 数 方法 。 

非 参数 方法 

在 非 参数 (nonparametric) 模型 中 , f 并 不 是 简单 固定 的 函数 。 相 反 ,f 的 形式 和 复杂 度 
与 数据 的 复杂 度 有 关 。 人 例如， 如果 X 和 了 的 关系 是 曲折 的 ， 那 么 非 参 数 方法 将 选择 符合 曲 
线 模型 的 函数 f。 相似 地 ， 如 果 输 入 和 输出 变量 之 间 的 关系 是 平滑 的 ， 则 选择 简单 的 函数 人 
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非 参 数 模 型 的 一 个 简单 例子 是 分 类 树 。 分 类 树 (classification tree) 是 一 系列 递归 的 对 输 
入 特征 的 二 进 制 决策 。 分 类 树 学 习 算 法 使 用 目标 变量 学 习 一 系列 优化 划分 ， 使 得 分 类 树 的 叶 
结 点 包含 与 目标 类 似 值 的 实例 。 

以 泰坦 尼克 号 乘客 数据 集 为 例 。 分 类 树 算法 首先 查找 最 佳 的 输入 特征 以 进行 划分 ， 这 样 
叶 结 点 的 乘客 要 么 是 幸存 的 ， 要 么 是 死亡 的 。 在 这 种 情况 下 ， 最 佳 分 类 特征 是 乘客 的 性 别 
( 男 / 女 ) 。 接 下 来 ， 算 法 继续 对 每 个 子 结 点 的 输入 特征 进行 划分 ， 直 到 算法 再 也 找 不 到 任何 
好 的 后 序 划分 为 止 。 

分 类 树 是 非 参 数 的 ， 因 为 树 的 深度 和 复杂 性 不 是 事先 预定 好 的 ， 而 是 从 数据 中 学 习 得 到 
的 。 如 果 目 标 变量 和 输入 特征 的 关系 比较 复杂 并 且 有 足够 的 数据 ， 那 么 树 就 会 变 得 更 深 ， 发 
现 更 微妙 的 细节 。 图 3-2 所 示 显 示 了 两 棵 从 不 同 的 泰坦 尼克 号 数据 子 集 学 习 得 到 的 分 类 树 。 
左 图 是 只 从 400 名 乘客 数据 中 学 习 得 到 的 : 模型 结果 很 简单 ， 只 有 一 次 划分 。 右 图 是 从 891 
名 乘客 的 数据 中 学 习 得 到 的 : 数据 量 越 大 ， 模 型 变 得 越 复 杂 ， 越 能 发 现 数据 中 更 详细 的 关系 
模式 。 



















































































分 类 树 : 少量 数据 分 类 树 : 大 量 数据 
性 别 = 男 性 别 = 男 








死亡 幸存 
207/40 36/117 
















死亡 党 兄弟 / 标价 宇 23.35 幸存 
460/93 妹 个 数 二 2.5 9/161 
死亡 幸存 死亡 幸存 
8/1 0/15 24/3 48/69 











图 3-2 决策 树 是 非 参数 机 器 学 习 算 法 的 例子 ， 因 为 它 的 函数 形式 不 是 固定 
的 。 树 模型 会 随 着 数据 量 的 增加 而 变 得 复杂 ， 捕 提 更 复杂 的 模式 。 树 的 每 个 终 
端 结 点 中 的 比率 是 该 结 点 中 训练 实例 死亡 和 幸存 的 比例 


























其 他 非 参 数学 习 方法 的 例子 包括 K -近邻 算法 (k - nearest neighbors ) 、spline 方法 
(splines) 、 基 础 扩展 方法 (basis expansion methods ) 、 核 平滑 (kernel smoothing) 、 广 义 加 法 
模型 ( generalized additive models) 、 神 经 网 络 (neural nets) 、Bagging 算法 (bagging) 、Boos- 
ting 算法 (boosting) 、 随 机 森林 (random forests) 和 支持 向 量 机 (support vector machines ) 。 
本 章 稍 后 给 出 某 些 方法 的 细节 ， 每 种 方法 的 描述 参见 附录 。 


3.1.4 有 监督 和 无 监督 学 习 


机 需 学 习 问 题 分 为 两 类 : 监督 学 习 和 无 监督 学 习 。 有 监督 问题 (supervised problems) 
是 指 你 可 以 访问 训练 数据 集中 的 目标 变量 ， 而 无 监督 问题 (unsupervised problems) 是 指 没 
有 确定 的 目标 变量 的 机 器 学 习 问 题 。 

到 目前 为 止 ， 本 书 的 所 有 实例 都 是 有 监督 学 习 问 题 。 这 些 问题 都 包含 一 个 感 兴趣 的 目标 
(泰坦 尼克 号 中 的 乘客 是 否 幸存 ? 这 个 客户 流失 了 吗 ? 车 辆 的 MPG 如 何 ?) 和 一 系列 目标 已 知 
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的 训练 数据 。 事 实 上 ， 机 咒 学 习 中 的 大 多 数 问题 本 质 上 是 有 监督 学 习 的 ， 并 且 大 多 数 机 需 学 习 
技术 被 设计 成 解决 有 监督 学 习 问 题 。 本 书 的 绝 大 部 分 内 容 都 是 描述 如 何 解决 有 监督 学 习 问 题 。 
在 无 监督 学 习 中 ， 你 只 能 访问 输入 特征 ， 而 且 没 有 相关 联 的 目标 变量 。 如 果 没 有 目标 变 
量 ， 那 你 能 够 进行 哪些 分 析 呢 ?无 监督 学 习 方法 主要 有 两 种 类 型 . 
。 聚 类 (Clustering) 一 一 使 用 输入 特征 发 现 数据 中 的 自然 分 组 ， 并 且 把 数据 分 到 相应 
的 分 组 中 。 方 法 : K -均值 聚 类 (k - means) 、 高 斯 混合 模型 (Gaussian mixture mod- 
els) 和 分 级 聚 类 (hierarchical clustering) 。 

e 降 维 (Dimensionality reduction ) 把 输入 特征 转换 成 少量 的 坐标 ， 捕 捉 数据 中 大 多 

数 的 变化 趋势 。 方 法 : 主 成 分 分 析 (了 Principal Component Analysis，PCA ) 、 多 维 尺 度 
分 析 (multidimensional scaling) 和 流 形 学 习 (manifold learning) 。 

聚 类 和 降 维 都 有 广泛 的 知名 度 (特别 是 kK -均值 和 PCA) ， 因 此 也 经 常 被 滥用 和 误 用 在 
需要 有 监督 学 习 的 场合 。 

但 无 监督 问题 在 机 器 学 习 中 扮演 了 重要 角色 ， 经 常用 在 支持 有 监督 学 习 上 ， 要 么 用 于 帮 
助 编译 学 习 用 的 训练 数据 ， 要 么 用 于 衍生 新 的 输入 特征 以 供 学 习 。 本 书 将 在 第 8 章 回 到 无 监 
督学 习 的 话题 。 

现在 让 我 们 过 渡 到 机 带 学 习 建 模 更 实际 的 方面 。 接 下 来 我 们 讨论 在 你 拥有 的 数据 上 构建 
模型 的 步骤 ， 以 及 选择 算法 时 应 注意 的 问题 。 我 们 把 本 章 余 下 的 部 分 分 成 两 节 ， 分别 对 应 机 
需 学 习 中 常见 的 两 个 问题 : 分 类 (classification) 和 回归 (regression)。 我 们 从 分 类 开始 。 


















































3.2 分 类 : 把 数据 预测 到 桶 中 





在 机 器 学 习 中 ， 分 类 指 的 是 通过 机 器 学 习 算 法 构建 的 分 类 器 (classifier) 把 新 数据 分 到 
相应 的 桶 (分类) 里 。 例 如 ， 垃 圾 邮件 探测 融 将 电子 邮件 分 发 到 垃圾 邮件 和 非 垃 圾 邮件 桶 
中 ， 手 写 数字 识别 器 将 图 片 分 到 0 ~9 的 桶 里 。 在 本 节 ， 你 将 学 习 如 何 用 手头 的 数据 构建 分 
类 器 。 图 3-3 示 出 了 分 类 流程 。 
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> 


图 3-3 分 类 流程 。 和 矩形 和 圆 形 被 分 类 器 分 到 A 类 和 B 类 ， 这 是 只 有 两 种 分 类 的 二 进 制 分 类 


让 我 们 再 举 个 例子 。 在 第 2 章 中 ， 观 察 泰坦 尼克 号 乘客 数据 集 ， 预 测 这 条 命运 多 外 的 船 
上 的 乘客 幸存 情况 。 图 3-4 示 出 了 数据 集 的 部 分 数据 。 
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Passengerld ，Survived ，Pclass ' Gender SibSp | Parch ; Ticket Fare Cabin ，Embarked 
0 Male 0 Al5 21171 7.25 S 
Female 0 PC 17599 71.2833 ; C85 CC 
Female STON/02. 3101282 ， 7.925 S 
Female 113803 53.1 Ci123 ; S 
S 
a 





Male 373450 8.05 


Male 330877 8.4583 


图 3-4 ”泰坦 尼克 号 乘客 数据 集 的 部 分 数据 























正如 我 们 前 面 所 讨论 的 ， 开 局 机 器 学 习 项 目的 最 好 方法 是 通过 可 视 化 的 数据 获得 一 种 感 
觉 。 例 如 ， 泰 坦 尼克 号 上 的 女性 幸存 者 比 男性 要 多 ,这 是 一 种 常识 ， 从 图 3-5 所 示 的 马赛 
克 图 中 可 以 看 出 的 确 是 这 样 。 
泰坦 尼克 号 数据 的 马赛 克 图 : 性 别 与 幸存 的 关系 

















性 别 

标准 残 差 
女性 <-4 -4:-2 -2:0 2 4 Bs: 
26% 女 | i 
wer: | 国 国 | 届 
低 于 与 统计 学 高 于 
望 什 变量 无 差别 期望值 




































74% 女 性 4 
幸存 








性 、 769% 女 性 
图 3-5 马赛 克 图 显示 结果 绝对 支持 灾难 中 女性 比 男 性 更 容易 幸存 这 一 观点 








通过 2. 3 节 的 可 视 化 技术 ,你 可 以 对 泰坦 尼克 号 乘客 数据 集中 的 每 个 特征 有 一 个 判断 。 
但 一 定 要 注意 ， 单 个 特征 的 好 坏 并 不 能 说 明 它 与 其 他 特征 联合 使 用 时 表现 如 何 。 可 能 年 龄 联 

合 性 别 和 社会 地 位 对 乘客 的 划分 要 好 于 单个 特征 〈 对 乘客 的 划分 ) 。 事 实 上 ， 这 是 从 一 开始 
就 使 用 机 带 学 习 算 法 的 一 个 主要 原因 :从 许多 维度 中 发 现 人 类 不 易 发 现 的 信号 。 

在 下 面 的 小 节 中 将 介绍 构建 分 类 模型 和 预测 的 方法 学 。 你 将 看 到 几 个 具体 的 算法 和 线性 
算法 与 非 线 性 算法 的 差别 。 


3.2.1 构建 分 类 堪 并 预测 


第 一 步 是 选择 构建 分 类 器 的 分 类 算法 。 这 类 算法 很 多 ， 对 于 不 同 的 数据 和 部 署 ， 要 求 各 
有 利弊 。 附 录 中 列 出 了 算法 的 表格 并 对 它们 做 了 对 比 。 将 使 用 这 个 表格 对 不 同 的 
问题 选择 算法 。 在 本 节 中 ， 算 法 选择 不 是 必需 的 ; 在 下 一 章 ， 你 将 学 习 如 何 正确 测量 算法 的 
性 能 并 选择 最 好 的 算法 。 

下 一 步 是 为 模型 准备 数据 。 在 研究 了 数据 集中 的 特征 之 后 ， 你 可 能 要 处 理 分 类 特征 和 和 缺 
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失 值 等 (如 第 2 章 讨论 的 ) 。 预 处 理 要求 也 与 特定 的 算法 有 关 ， 附 录 中 列 出 了 每 个 算法 的 这 
些 要 求 。 

对 泰坦 尼克 号 幸存 者 模型 ， 你 将 选择 一 个 简单 的 分 类 算法 : 逻辑 回归 (logistic regres- 
sion) 。 对 于 逻辑 回归 ， 你 需要 做 如 下 事情 : 

1) 缺失 值 插 补 。 

2) 展开 分 类 特征 。 

3) 从 第 2 章 中 你 已 经 知道 票 价 特征 是 严重 偏 移 的 。 在 这 种 情况 下 ， 对 特征 加 以 转换 以 
使 其 分 布 更 加 对 称 ， 减 少 潜在 的 离 群 值 影 响 是 有 好 处 的 (对 某 些 机 器 学 习 模 型 来 说 ) 。 在 
此 ， 你 需要 对 票 价 进行 开平 方 转换 。 

模型 最 后 使 用 的 数据 集 如 图 3-6 所 示 。 





Gender= | Gender = 


Pclass | Age | SibSp | Parch | sqrt_Fare Embarked = C | Embarked = Q | Embarked = S 


2.692582 





8.442944 





2.815138 
1 35 |1 7.286975 | 1 
3 35 |0 0 |2.837252 |0 
图 3-6 ”处理 过 的 泰坦 尼克 号 乘客 数据 的 前 5 行 。 对 分 类 数据 、 缺 失 值 进 行 了 处 理 ， 并 把 票 价 进行 开平 方 
( 见 源 代码 仓库 中 的 prepare_data 函数 ) 。 现 在 ， 所 有 特征 都 是 数值 型 的 ， 适 合 于 绝 大 多 数 机 融 学 习 算法 


你 可 以 再 进一步 ， 通 过 在 逻辑 回归 算法 中 运行 数据 构建 模型 。Python 的 scikit - leam 包 
内 置 了 这 个 算法 的 实现 ,模型 构建 和 预测 代码 见 清单 3-1。 


清单 3-1 用 scikit -learn 构建 逻辑 回归 分 类 器 


0 
0 
0 
0 















































from sklearn. linear model import LogisticRegression as Model 导入 逻辑 
def train( features,target): 回归 算法 
model =Model() 和 
况 看 回归 箔 装填 : 
model.fit(features,target) I 
return model 
def predict(model ,new features): 
中 末 入 
preds =model.predict(new_ features) 0 
return preds 


#Assume Titanic data is loadegd intotitanic feats, 


、 H#titanic target andq titanic test 、 、 
返回 预测 i i 返回 算法 
结果 (0 或 1) model =train(titanic feats,titanic target) 构建 的 模型 


predictions =predict(model,titanic _ test) 



































名 逮 辑 回归 中 的 回归 (regression) 并 不 意味 着 它 是 一 个 回归 算法 。 逮 辑 回归 只 是 用 一 个 逻辑 函数 扩展 了 线性 回归 ， 


使 它 更 适合 分 类 。 
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构建 模型 以 后 ， 基 于 未 见 过 的 乘客 的 特征 预测 其 是 否 幸存 。 模 型 期 望 的 特征 格式 如 
图 3-6 所 示 ， 因 此 任何 新 乘客 的 数据 必须 经 过 和 训练 数据 一 样 的 处 理 。 函 数 predict 的 输出 
结果 是 ， 如 果 乘 客 幸 存 则 返回 1， 和 否则 返回 0。 
通过 绘制 决策 边界 对 分 类 器 可 视 化 是 十 分 有 用 的 。 给 定数 据 集中 的 两 个 特征 ， 你 可 以 根据 
模型 绘制 乘客 幸存 与 否 的 边界 。 图 3-7 示 出 了 年 龄 和 票 价 平方 根 两 个 特征 的 边界 划分 结 






































分 类 器 预测 ， 幸存 


+ ee 决策 边界 
. wo a 
.+ °° 多 © 444 


bo 分 类 器 预测 ， 死亡 

















* 幸存 (实际 )。 死 亡 (实际 ) 
图 3-7 年 龄 和 票 价 特征 的 决策 边界 。 萎 形 表示 幸存 的 乘客 ， 圆 形 表 示 死 亡 的 乘客 。 浅 色 背 景 表示 综 
合 了 年 龄 和 票 价 两 个 因素 预测 的 幸存 结果 。 注 意 ， 有 些 实例 与 边界 发 生 了 交 秋 。 分 类 器 并 不 完美 ， 原 
因 是 你 只 选 了 两 个 维度 。 对 于 整个 数据 集 算法 可 通过 10 个 维度 找到 决策 边界 ， 但 已 难于 可 视 化 
























































算法 盒子 : 逻辑 回归 

在 这 些 “算法 高 亮 ” 人 金子 中 ， 你 可 以 近 距 离 领 略 本 书 使 用 的 算法 的 基本 思想 。 这 可 
以 让 比较 好 奇 的 读者 通过 研究 实现 自己 的 基本 算法 。 虽 然 我 们 在 本 书 中 主要 使 用 现成 的 
包 ， 但 理解 特定 算法 的 基础 对 于 全 面 认 识 算法 的 预测 潜力 是 十 分 重要 的 。 

你 看 到 的 第 一 个 算法 是 逻辑 回归 算法 (logistic regression algorithm)， 是 最 简单 的 分 
类 算法 ， 虽然 这 个 说 法 尚 有 异议 。 图 3-7 示 出 了 一 个 合子 ， 输 入 特征 是 年 龄 和 票 价 ( 票 
价 的 平方 根 ) ; 目标 是 幸存 还 是 死亡 。 为 了 构建 这 个 算法 ， 你 需要 找到 一 条 线 ， 能 够 把 
数据 很 好 地 分 到 目标 类 中 。 一 条 二 维 分 界线 可 用 两 个 参数 描述 。 这 两 个 参数 是 由 你 决定 
的 模型 参数 。 

算法 包含 如 下 步骤 ， 

1) 一 开始 你 可 以 选择 随机 的 参数 值 进行 研究 ， 也 就 是 在 二 维 图 中 画 一 条 随机 的 线 。 

2) 测试 一 下 这 条 线 对 两 个 类 型 划分 的 好 坏 。 在 逻辑 回归 中 ， 使 用 统计 偏差 对 拟 合 优 
度 进行 测量 。 

3) 猜想 新 的 参数 值 并 测量 划分 能 力 。 

4) 重复 第 3) 步 直到 没有 更 好 的 猜测 。 这 是 一 个 优化 过 程 ， 可 以 用 一 个 范围 内 的 优 
化 算法 来 实现 。 梯 度 下 降 是 简单 优化 算法 的 流行 选择 。 
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这 种 方法 可 以 扩展 到 更 高 维度 ， 因 此 在 这 个 模型 中 ， 你 没 必 要 拘泥 于 两 个 特征 。 如 
果 你 对 这 个 算法 的 细节 有 兴趣 ， 我 们 强烈 推荐 你 做 进一步 的 研究 并 用 自己 选择 的 语言 溉 
试 实现 这 个 算法 ， 然 后 再 与 广泛 使 用 的 机 器 学 习 包 中 的 实现 进行 对 照 。 我 们 省 略 了 许多 
细节 ， 但 前 面 的 步骤 是 算法 的 基础 。 

逻辑 回归 的 性 质 如 下 : 

e 相对 于 更 复杂 的 算法 ， 它 相对 简单 易于 理解 。 而 且 计 算 简单 ， 使 得 它 对 大 数据 集 

的 伸缩 性 良好 。 


日 如 果 划 分 类 别 的 决策 边界 高 度 非 线性 化 ， 则 性 能 
@ 有 遇 辑 回归 算法 有 时 对 数据 过 度 拟 合 ， 所 以 你 需要 经 常 使 用 正则 化 技术 (regulariza- 
tion) 来 限制 这 种 危险 。 


下 降 。 


进一步 阅读 
如 果 你 想 进一步 学 习 逻 辑 回 归 和 它 的 实际 运用 ， 请 参阅 David Hosmer 等 人 编著 的 实 
用 有 还 辑 回 归 (Wiley 出 版 社 ，2013)。 





3.2.2 非 线性 数据 与 复杂 分 类 


观察 图 3-7， 你 就 可 以 理解 为 什么 逻辑 回归 是 线性 算法 : 决策 边界 是 一 条 直线 。 当 然 ， 
你 的 数据 不 会 被 一 条 直线 划分 得 很 好 ， 因 此 ， 对 于 这 样 的 数据 应 该 使 用 非 线性 算法 。 但 非 线 
性 算法 是 典型 的 计算 密集 型 算法 ， 对 于 大 数据 缺乏 规模 方面 的 扩展 性 。 在 第 8 章 中 你 将 进 一 
步 了 解 各 种 算法 的 规模 性 问题 。 
查看 一 下 附录 ， 你 可 以 选择 一 个 非 线 性 算法 为 泰坦 尼克 号 数据 建 模 。 对 于 非 线 性 问题 ， 
一 个 常用 的 方法 是 非 线 性 核 (nonlinear kernel) 的 支持 向 量 机 (Support Vector Machine ， 
SVM) 。 文 持 向 量 机 本 质 上 是 线性 的 ,但 通过 使 用 核 可 将 该 模型 变 成 强大 的 非 线 性 方法 。 你 
可 以 简单 地 修改 清单 3-1 中 的 一 行 代码 以 使 用 这 个 新 算法 (代码 如 下 )， 其 决策 边界 如 
图 3-8 所 示 。 











from sklearn. svm import SVC as Model 

可 以 看 出 图 3-8 的 决策 边界 与 图 3-7 的 线性 边界 不 同 。 在 这 里 你 看 到 的 是 一 个 很 好 的 
过 度 拟 合 (overfitting) 的 例子 ， 过 度 拟 合 是 机 器 学 习 中 一 个 非常 重要 的 概念 。 在 单一 记录 
的 水 平 上 ， 这 个 算法 可 以 很 好 地 拟 合 数据 ， 但 对 于 未 包含 在 训练 集中 的 数据 ， 存 在 不 能 很 好 
地 预测 的 风险 。 模 型 越 复 杂 ， 过 度 拟 合 的 风险 就 越 高 。 

通常 可 以 通过 在 模型 中 引入 参数 来 避免 非 线 性 模型 的 过 度 拟 合 。 通 过 调整 模型 的 参数 ， 
数据 保持 不 变 ， 可 得 到 更 好 的 决策 边界 。 注 意 ， 你 现在 是 由 直觉 判断 是 否 发 生 了 过 度 拟 合 。 
在 第 4 章 中 ， 你 将 学 习 如 何 利 用 数据 和 统计 来 量化 这 种 直觉 。 现 在 ， 你 将 使 用 我 们 (作者 ) 
的 经 验 并 对 称 作 gamma 的 参数 进行 调整 。 现 在 你 无 须知 道 什 么 是 “ 伽 马 ”， 只 需要 知道 它 有 
助 于 控制 过 度 拟 合 的 风险 。 在 第 5 章 ， 你 将 学 习 如 何 优化 模型 参数 ， 而 不 仅仅 靠 猜测 。 在 
SVM 分 类 需 中 设置 gamma = 0.1， 将 得 到 更 好 的 决策 边界 ， 效 果 如 图 3-9 所 示 。 
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* 幸存 (实际 )。 死 亡 实际 ) 
图 3-8 泰坦 尼克 号 幸存 者 的 非 线性 核 的 支持 向 量 机 分 类 器 的 非 线性 决策 边界 。 
亮色 背景 表示 的 是 年 龄 和 票 价 组 合 产生 的 幸存 预测 
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4 幸存 (实际 )。 死 亡 (实际 ) 
图 3-9 ”gamma =0.1 的 非 线 性 RBF - 核 函 数 SVM 的 决策 边界 


算法 盒子 : 支持 向 量 机 

支持 向 量 机 (SVM) 算法 既是 线性 问题 ， 也 是 
非 线 性 问题 的 常用 选择 。 它 具备 一 些 理论 和 实践 性 
质 ， 使 得 它 可 以 应 用 在 众多 场合 。 

算法 思想 是 ， 和 前 面 讨论 的 人 逻辑 回归 一 样 ， 了 寻 
找 一 条 线 (或 者 更 高 维度 的 等 价 类 ) 进行 最 佳 划 











分 。SVM 尝试 寻找 决策 线 两 边 的 点 之 间 的 最 大 范围 

(margin) ， 而 不 是 测量 到 所 有 点 的 距离 。 这 种 思想 

再 也 不 用 担心 位 于 边界 上 的 点 ， 而 只 有 距离 比较 近 3-10 SVM 的 决策 线 优 于 其 他 机 器 
的 点 。 在 图 3-10 中 ,可 以 看 出 H, 和 H, 是 不 好 的 学 习 算 法 找到 的 分 界线 
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分 界线 ， 因 为 距 边 界 两 边 最 近 点 的 距离 不 是 可 能 的 最 大 值 。H, 是 最 佳 分 界线 。 

这 个 算法 的 分 界线 是 线性 的 ， 虽然 从 这 个 意义 上 说 ，SVM 是 线性 的 ， 但 它 能 够 适合 
非 线性 数据 ， 正 如 你 在 本 节 前 面 看 到 的 一 ee 非 线性 数据 : 
核 函 数 技 巧 。 核 函数 (kernel) 是 一 种 数学 结构 ， 它 可 以 “弯曲 ”数据 空间 。 该 算法 可 
以 在 弯曲 的 空间 中 找到 线性 边界 ,在原 空间 中 生成 非 线 性 边界 。 


进一步 阅读 


关于 机 器 学 习 算 法 的 书 有 很 多 ,涵盖 了 从 理论 基础 到 实用 的 高 效 实现 。 如 果 你 正在 
寻找 这 些 话题 的 更 加 严密 的 论证 ， 我 们 推荐 以 下 两 本 机 器 学 习 经 典 : 
e Trevor Hastie 等 人 编著 的 《统计 学 精 要 : 数据 挖 气 ， 推 理 和 预测 》( The Klements of 
Statistical Learning: Data Mining, Inference, and Prediction) (Springer，2009 ) 。 
e Christopher Bishop 编著 的 《模式 识别 和 机 器 学 习 》 (Pattern Recognition and Machine 


Learning) (Springer，2007) 。 


3.2.3 多 类 别 分 类 

















到 现在 为 止 ， 你 看 到 的 只 是 两 类 划分 。 在 某 些 情况 下 ， 将 多 于 两 个 分 类 。 多 类 别 分 类 最 好 
的 实例 是 手写 数字 识别 问题 。 每 当 你 给 家 里 写 一 封 传统 邮件 时 ， 机 需 人 阅读 手写 的 邮政 编码 决 





















































定 将 信 发 到 哪里 ， 在 这 个 过 程 中 好 的 数字 识别 是 十 分 必要 的 。MNIST 公共 数据 集 ? 可 用 于 研究 
这 些 问 题 。 这 个 数据 集 包 含 了 6 万 张 手写 数字 图 片 。 图 3-11 显示 了 一 些 手 写 数 字 图 片 。 





7131415 








图 3-11 MNIST 数据 集中 随机 挑选 的 4 张 手 写 数 字 图 片 








每 张 图 片 为 28 px x28 pxz， 但 我 们 把 每 张 图 片 转换 成 28- =784 个 特征 ， 每 个 特征 代表 一 
个 像素 。 We 它 还 是 一 个 高 维度 问题 。 算 法 要 识别 的 模式 是 这 些 特 征 的 











复杂 组 合 ， 这 个 问题 本 质 上 是 非 线 性 的 。 

















a 首先 你 要 从 附录 中 选择 一 个 算法 。 列 表 中 第 一 个 内 在 文 持 多 分 类 问题 
的 非 线性 算法 是 K - 邻近 算法 ， 它 是 另 一 个 简单 但 功能 强大 的 非 线性 机 器 建 模 算法 。 你 只 需 
i 就 可 以 使 用 该 算法 ,但 你 需要 包含 一 个 用 于 接收 全 部 预测 




















] 能 的 函数 ， 而 不 是 只 接收 最 终结 果 : 











from sklearn.neighbors import KNeighborsClassifier as Model 








你 可 以 在 http ://yann. lecun. com/ exdb/ mnist/ 找 到 习 








手写 数字 的 MNIST 数据 集 。 
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实用 机 器 学 习 


def predict probabilities(model,new_ features) : 
preds =model.predict_proba(new_ features) 


return preds 
构建 -近邻 分 类 器 对 图 3-11 中 的 4 幅 图 片 进 行 预测 ， 得 到 图 3-12 所 示 的 概率 表 。 
预测 的 数字 


























数字 2 有 0.2 的 概率 是 数字 5 
图 3-12 ”对 MNIST 数据 集 应 用 - 近邻 分 类 器 得 到 的 预测 概率 表 








可 以 看 出 对 数字 1 和 数字 3 的 预测 是 完全 正确 的 ， 数 字 4 只 有 很 小 的 (10% ) 不 确定 
性 。 看 一 下 第 二 个 数字 (3) ， 的 确 难 于 分 类 。 这 就 是 从 一 开始 就 要 获得 全 部 概率 的 主要 原 
因 : 对 于 某 些 不 太 确定 的 应 采取 进一步 措施 。 这 在 邮局 机 器 人 实例 中 很 容易 理解 ， 如 果 机 器 
人 对 于 某 些 数字 不 太 确定 ， 或 许 在 被 错 发 之 前 我 们 应 该 进行 人 工 干预 。 
K -近邻 算法 
K 一 近邻 算法 (k -nearest neighbors algorithm) 是 一 个 简单 、 强 大 的 非 线性 机 器 学 习 算 
法 。 人 > 但 预测 较 慢 的 场合 。 很 快 你 就 会 
基本 思想 是 你 可 以 按照 与 训练 集中 的 相似 度 对 新 数据 进行 分 类 。 如 果 数 据 集中 包含 
列 数字 n,， 0 公式 计算 数据 记录 间 的 距离 (qd): 

















而 烛 太 二 

当 对 新 记录 预测 时 ， a 并 把 新 记录 分 配 到 相应 的 类 
中 。 这 是 1 -近邻 分 类 器 ， 因 为 只 使 用 了 最 近 的 1 个 邻居 。 通 常 使 用 3、5 或 9 的 近邻 
并 使 用 这 些 近 邻 中 最 常用 的 分 类 (使 用 奇数 以 避免 粘连 ) 。 

用 已 知 记录 标志 新 数据 的 距离 计算 速度 很 快 ， 所 以 训练 阶段 相对 较 快 。 预 测 阶段 的 
大 部 分 工作 已 完成 ， 只 需要 从 整个 数据 集中 查找 最 近邻 居 (数据 ) 。 

前 面 的 简单 实例 使 用 常用 的 欧 氏 距离 度量 (Euclidean distance metric ) 。 也 可 以 使 用 
更 高 级 的 距离 度量 ， 这 取决 于 你 的 数据 集 

K -近邻 算法 不 但 用 于 分 类 ， 还 可 用 于 回归 。 在 回归 中 ,将 近邻 的 平均 值 或 中 值 作 
为 目标 变量 的 值 ， 而 不 是 使 用 近邻 的 常用 分 类 。 





3.3 回归 : 预测 数值 型 数据 


并 不 是 所 有 的 机 带 学 习 问 题 都 把 数据 进行 了 分 类 。 有 了 时， 目标 变量 为 数值 型 的 值 ， 例 
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如 ， 在 金融 模型 中 预测 美元 的 价值 。 我 们 把 预测 数值 变量 的 活动 称 为 回归 (regression ) ， 模 
型 本 身 称 为 回归 上 需 (regressor)。 图 3-13 示 出 了 回归 的 概念 。 

















图 3-13 本 回归 过 程 中 ， 回 归顺 预测 记录 的 数值 型 的 值 


作为 回归 分 析 的 例子 ， 你 将 使 用 第 2 章 介绍 的 汽车 MPG 数据 集 。 这 个 例子 的 目标 是 根 
据 名 全 定 的 车 辆 参数 ， 如 马力 、 和 车身 重量 、 产 地 和 车 型 年 份 等 ,预测 车 辆 的 平均 MPG 数值 。 
图 3-14 显示 了 这 个 数据 集 的 部 分 数据 。 


OC EE CE CE 中 
1 15 70 
70 
70 
70 
图 3-14 ”和 车辆 MPG 数据 的 部 分 数据 


在 第 2 章 中 ， 你 已 经 发 现 了 MPG 和 车 身 重量 、 车 型 年 份 之 间 有 用 的 联系 ， 这 些 联系 显 
示 在 图 3-15 中 。 










































































MPG 数 据 散 点 图 
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图 3-15 使 用 散 点 图 可 以 看 出 ， 车 身 重量 和 车 型 年 份 对 预测 MPG 很 有 用 


在 下 一 他， 你 将 看 到 如 何 构建 基本 线性 回归 模型 来 预测 该 数据 集 的 MPG 数值 。 成 功 构 
建 基 本 模型 后 ， 你 将 看 到 非 线性 数据 建 模 的 更 高 级 算法 。 
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3.3.1 构建 回归 堪 并 预测 


同样 地 ， 你 还 是 要 从 选择 算法 和 准备 数据 ， 把 数据 处 理 成 合适 的 格式 开始 。 可 以 说 线性 
回归 算法 是 最 简单 的 回归 算法 。 正 如 它 的 名 字 一 样 ， 这 是 一 个 线性 算法 ， 附 录 中 列 出 了 使 用 
该 算法 的 数据 处 理 要求 。 你 需要 缺失 值 插 补 和 展开 分 类 特征 。 我 们 的 车 辆 MPG 数据 集中 没 
有 缺失 值 ， 但 有 有 一 分 类 型 的 列 : 产地 ( Origin)。 把 产地 列 展开 (如 第 2 曹 2.2.1 节 描述 
的 那样 ) 后 ， 得 到 如 图 3-16 所 示 的 数据 。 
























































图 3-16 展开 分 类 数据 产地 (Origin) 之 后 的 车 辆 MPG 数据 


现在 你 可 以 使 用 该 算法 构建 模型 7 了 7。 同样 地 ， 你 可 以 使 用 清单 3-1 所 示 的 代码 框架 ， 
只 需 修改 这 一 行 : 


from sklearn.linear model import LinearRegression as Model 


有 了 模型 之 后 就 可 以 进行 预测 了 。 本 例 中 ， 在 建 模 之 前 ， 需 要 把 数据 分 成 训练 集 和 测试 集 
两 部 分 。 在 第 4 章 ， 你 将 进一步 学 习 如 何 评价 模型 ， 但 在 本 节 将 使 用 简单 的 技术 对 模型 进行 评 
价 。 在 保留 测试 集 的 基础 上 ， 用 部 分 数据 训练 模型 ， 就 可 以 在 测试 集 上 进行 预测 ， 并 观察 预测 
和 实际 的 贴 合 程度 。 如 果 你 用 所 有 的 数据 训练 模型 ， 并 且 对 一 些 训练 数据 进行 预测 ， 那 么 你 就 
是 在 造假 ， 因 为 如 果 模 型 在 训练 中 见 过 要 预测 的 数据 ， 那 样 做 出 的 预测 当然 会 很 好 。 

图 3-17 显示 了 保留 测试 集 的 预测 结果 ， 以 及 与 真实 值 的 比较 。 在 本 例 中 ， 使 用 80% 的 
数据 进行 训练 ，20% 的 数据 用 于 预测 。 
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0 13.0 13.601050 
| 15.181120 











图 3-17 保留 测试 集 的 MPG 预测 结果 与 实际 值 比较 


对 于 比较 数据 较 多 的 情况 ， 可 以 使 用 我 们 熟悉 的 散 点 图 进行 比较 。 对 于 回归 问题 ， 实 际 
目标 值 和 预测 值 都 是 数字 。 在 散 点 图 中 进行 实际 值 与 预测 值 的 比较 ， 可 以 看 出 预测 值 与 实际 
值 的 符合 程度 ， 这 在 第 2 章 做 过 介绍 。 对 于 保留 测试 集 的 车 辆 MPG 散 点 图 如 图 3-18 所 示 。 
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3-18 显示 预测 结果 非常 好 ， 因 为 所 有 预测 都 落 在 了 靠近 最 佳 对 角 线 的 附近 。 通 过 观察 
3-18， 可 以 对 机 噩 学 习 模 型 对 新 数据 的 预测 表现 有 一 个 直观 的 判断 。 在 本 例 中 ， 低 佑 了 
某 些 MPG 较 高 的 值 ， 这 个 信息 对 你 来 说 可 能 很 有 有 用。 例如， 如果 你 要 对 高 MPG 有 一 个 更 好 
的 估计 ， 则 需要 MPG 更 高 的 车 辆 样本 ， 或 者 需要 获取 更 高 质量 的 数据 。 

















图 
图 


























MPG 预 测 值 











0 0 

MPG 
图 3-18 保留 测试 集 的 数据 预测 值 和 实际 值 比较 的 散 点 网 。 对 角 线 显示 的 正好 是 回归 器 。 
所 有 预测 值 离 这 条 线 越 近 ， 模 型 越 好 





算法 盒子 : 线性 回归 
和 用 于 分 类 的 逻辑 回归 一 样 ， 线 性 回归 (linear regression ) 可 以 说 是 最 简单 、 应 用 
最 广 的 构建 回归 模型 的 算法 。 其 主要 优点 是 线性 规模 的 可 扩展 性 和 较 高 的 可 解释 性 。 
算法 把 数据 记录 作为 点 ， 目 标 变量 作为 了 了 轴 ， 用 一 条 直线 (在 两 个 或 多 个 特征 的 情 
况 下 是 平面 ) 拟 合 这 些 点 。 图 3-19 给 出 了 优化 模型 中 点 到 直线 的 距离 的 过 程 。 
MPG 数 据 散 点 图 





1500 2500 3500 4500 74 76 78% 80 82 
车 身 重量 到 所 有 点 距离 最 短 的 直线 车 型 年 份 
| 3-19 ”线性 回归 确定 最 佳 拟 合 线 的 过 程 。 黑 线 是 该 数据 集 上 的 最 佳 拟 合 线 ， 
数据 到 其 他 可 能 决策 线 (如 图 中 的 虚线 ) 的 均 方 误差 最 小 
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对 于 二 维 空间 中 的 直线 可 由 两 个 参数 描述 ， 从 数学 中 的 基本 形式 y=axx+b 可知 是 
a 和 Db。 这 些 参 数 用 于 拟 合 数据 ， 优 化 后 它们 可 以 完全 描述 模型 并 用 于 新 数据 的 预测 。 





3.3.2 对 复杂 的 非 线性 数据 进行 回归 


在 某 些 数据 中 ， 特 征 间 的 关系 不 适合 线性 模型 ， 如 果 要 进行 精确 预测 ， 则 线性 回归 算法 
就 不 太 适 合 。 其 他 要 求 ， 如 规模 化 可 能 是 低 准 确 度 的 必要 权衡 。 还 要 知道 ， 非 线性 算法 并 不 
能 保证 更 高 的 精确 度 ， 因 为 有 过 度 拟 合 的 危险 。 作 为 非 线性 回归 模型 的 例子 ， 我 们 介绍 随机 
森林 算法 。 对 于 精确 性 要 求 较 高 的 非 线性 问题 ， 随 机 森林 是 常用 的 选择 。 正 如 在 附录 中 摘 述 
的 一 样 ， 它 非常 易 用 ， 因 为 不 需要 太 多 的 数据 预 处 理 。 在 图 3-20 和 图 3-21 中 ,可 以 看 到 
随机 森林 模型 对 车 辆 MPG 的 预测 结果 。 


EE rr 
27.1684 
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图 3-20” 非 线性 随机 森林 回归 模型 的 MPG 预测 值 与 真实 值 的 比较 1 









































MPG 预 测 值 








10 15 20 25 30 35 40 45 50 
MPG 


图 3-21 非 线 性 随机 森林 回归 模型 的 MPG 预测 值 与 真实 值 的 比较 2 





这 个 模型 与 线性 算法 没有 太 大 的 区 别 ， 至 少 直观 地 看 起 来 是 这 样 的 。 对 于 精确 度 来 讲 ， 
不 清楚 哪 种 算法 更 好 。 在 下 一 章 ， 将 学 习 如 何 量化 性 能 (通常 称 为 模型 的 精确 度 得 分 
(aceuracy score) ) ， 因 此 你 可 以 对 预测 精确 度 到 底 怎 样 做 出 有 意义 的 度量 。 
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算法 盒子 : 随机 森林 

这 是 本 章 最 后 一 个 算法 盒子 了 ， 我 们 介绍 随机 森林 算法 (Random Forest，RE) 。 这 
个 高 精度 的 非 线性 算法 被 广泛 地 应 用 在 分 类 和 回归 问题 中 。 

RF 算法 的 基础 是 决策 树 。 假 定 你 要 对 某 事 做 出 决定 ， 如 下 一 步 要 做 什么 。 有些 变 量 
可 帮助 你 做 出 最 佳 行动 ， 有些 变 量 的 重要 性 (权重 ) 大 于 其 他 变量 。 在 这 种 情况 下 ， 你 
首先 要 问 : “这 将 为 我 赚 多 少 钱 ?” 如 果 答 案 是 小 于 10 美元 ， 你 可 以 停止 任务 的 执行 。 
如 果 答 案 大 于 10 美元 ， 你 可 能 继续 问 下 一 个 问题 : “这 样 做 可 使 我 快乐 吗 ?” 答案 为 是 
或 否 。 你 可 以 继续 构建 这 棵 树 ， 直 到 得 到 结论 并 选择 一 个 任务 去 执行 。 

决策 树 算法 可 以 使 计算 机 在 训练 集中 找 出 哪个 变量 最 重要 ， 并 把 它们 放 在 树 的 顶端 ， 
并 逐次 使 用 重要 性 差 一 些 的 变量 。 这 允许 计算 机 综合 这 些 变量 , “如 果 超 过 10 美元 ， 并 
使 我 感到 快乐 ， 总 工作 量 不 超过 1 小 时 ， 那 就 对 了 ”。 

决策 树 的 问题 在 于 ， 树 顶端 的 部 分 对 于 答案 有 十 分 重要 的 影响 ， 如 果 新 数据 的 分 布 
与 训练 集 不 同 ， 那 么 其 概括 能 力 将 受到 影响 。 这 就 是 随机 森林 算法 起 作用 的 地 方 。 通 过 
构建 决策 树 的 集合 来 减轻 这 种 影响 。 当 生成 答案 时 ， 对 于 分 类 类 型 选择 票数 最 多 的 分 类 ， 
对 于 回归 的 情况 采用 平均 值 (作为 答案 )。 因 为 使 用 投票 或 均值 的 方式 ， 可 以 很 自然 地 
给 出 全 部 可 能 的 反馈 ， 这 是 许多 算法 做 不 到 的 。 

随机 森林 还 有 其 他 优点 ， 如 不 受 不 重要 特征 的 影响 、 对 缺失 值 引 起 的 噪声 和 错 
据 免 疫 等 。 





3.4 总结 


在 本 章 ， 我 们 介绍 了 机 器 学 习 建 模 。 下 面 列 出 本 章 的 主要 内 容 : 

。 建 模 的 目的 是 描述 输入 特征 和 目标 变量 之 间 的 关系 。 

。 可 以 使 用 模型 对 新 数据 (目标 未 知 的 数据 ) 进行 预测 ， 也 可 以 推断 数据 间 的 真实 联 

系 〈 缺 乏 为 什么 的 联系 ) 。 

机 器 学 习 建 模 方 法 有 几 百 种 。 有 些 是 参数 型 的 ， 这 意味 着 特征 和 目标 之 间 的 数学 函数 

是 事先 确定 的 。 人 参数 化 模型 可 解释 性 好 ， 但 准确 度 不 如 非 参 数 方法 。 非 参数 方法 更 灵 

活 ， 而 且 还 可 以 根据 特征 和 目标 间 关 系 的 复杂 性 进行 调整 ， 由 于 其 高 度 的 准确 性 和 灵 

活性 ， 故 被 大 多 数 机 带 学 习 从 业者 所 喜爱 。 

e 机 器 学 习 方 法 进一步 分 为 有 监督 方法 和 无 监督 方法 。 有 监督 方法 需要 目标 已 知 的 训练 
集 ， 而 无 监督 方法 不 需要 目标 变量 。 本 书 的 绝 大 部 分 内 容 致 力 于 有 监督 学 习 。 

。 有 监督 学 习 最 常见 的 两 种 问题 是 分 类 和 回归 。 分 类 问题 的 目标 是 类 别 型 的 ， 回 归 问 题 
的 目标 是 数值 型 的 。 在 本 章 ， 学 习 了 如 何 构建 分 类 和 回归 模型 ， 并 用 它们 对 新 数据 进 
行 预测 。 

e 对 分 类 问题 进行 了 深入 研究 。 线 性 算法 在 分 类 中 定义 线性 决策 边界 ， 然 而 ， 如 果 数 据 
不 能 进行 线性 划分 ， 则 需要 非 线性 方法 。 使 用 非 线 性 模型 的 计算 量 要 大 些 。 
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。 与 分 类 (预测 目标 为 类 别 型 的 ) 相 比 ,在 回归 模型 中 预测 的 目标 是 数值 型 的 。 你 看 
到 了 线性 方法 和 非 线性 方法 的 例子 ， 并 学 习 了 如 何 可 视 化 这 些 模 型 的 预测 结 


3.5 ”本章 术语 


本 章 术语 见 表 3-1。 
表 3-1 本 章 术语 























模型 (model) 在 训练 数据 上 使 用 机 器 学 习 算法 得 到 的 最 初 产品 
预测 ( prediction) 把 新 数据 输入 模型 进行 预测 
推断 (inference) 通过 构建 模型 获得 数据 的 深层 次 认识 ， 而 不 进行 预测 








( 非 ) 参数 的 (non)parametric) | 参数 化 模型 对 数据 结构 做 出 了 假定 ， 而 非 参 数 模 型 则 不 同 

有 监督 模型 ， 如 分 类 和 回归 ， 寻 找 输入 特征 和 目标 变量 之 间 的 映射 关系 。 无 监督 
模型 用 于 发 现 数据 中 的 模式 ， 而 不 需要 特定 的 目标 变量 

聚 艇 (clustering) 一 种 无 监督 学 习 形 式 ， 将 数据 放 到 自 定义 的 簇 中 

男 一 种 无 监督 学 习 形 式 ， 可 以 把 高 维 数据 集 映射 成 低 维 的 表示 形式 ， 通 常用 于 二 
维 或 三 维 绘图 











(无 ) 有 监督 ( (un) supervised) 












































降 维 (dimensionality reduction ) 


























分 类 ( classification) 有 监督 学 习 方法 ， 将 数据 预测 到 相应 的 “ 桶 ”中 
回归 (regression) 预测 数值 型 目标 的 有 监督 学 习 方 法 





在 下 一 章 ， 你 将 看 到 创建 和 测试 模型 ， 这 也 是 机 器 学 习 中 令 人 兴奋 的 部 分 。 你 将 看 到 选 
择 的 算法 和 特征 能 不 能 解决 手头 的 问题 ， 还 可 以 看 到 如 何 严格 地 验证 模型 ， 看 其 对 于 新 数据 
的 预测 情况 如 何 。 你 还 会 学 到 验证 方法 、 度 量 标 准 和 有 用 的 评估 模型 性 能 的 可 视 化 技术 。 
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第 4 章 
模型 评 佑 与 优化 


本 章 导读 

@ 模型 预测 性 能 的 交叉 评估 (cross -validation ) 。 
e 过 度 拟 合 与 避免 。 

e 标准 评价 指标 和 二 元 、 多 元 分 类 的 可 视 化 。 

@ 回归 模型 的 标准 评价 指标 和 可 视 化 。 

@ 选择 最 佳 参数 优化 模型 。 





当 安 装 了 机 器 学 习 模 型 后 ， 下 一 步 就 是 评估 模型 的 准确 性 。 在 使 用 模型 之 前 ， 需 要 知道 
它 对 新 数据 的 预测 能 力 如 何 。 如 果 你 确信 预测 性 能 良好 ， 那 就 可 以 安然 地 把 它 部 署 到 产品 中 
进行 新 数据 分 析 了 。 相 似 地 ， 如 果 预 测 性 能 评估 不 尽 人 意 ， 你 可 以 对 数据 和 模型 再 进行 研究 
以 提高 和 优化 它 的 准确 性 。 本 章 的 最 后 一 节 介 绍 简单 模型 优化 。 第 5、7、9% 章 涵 盖 了 更 复杂 
的 方法 以 提升 机 器 学 习 模 型 的 预测 的 准确 性 。 

正确 评估 机 顺 学 习 模 型 的 预测 性 能 是 一 项 重要 的 任 
务 。 从 介绍 评估 模型 预测 性 能 的 严格 的 统计 学 方法 开始 ， 
展示 以 图 形 和 伪 码 的 方式 如 何 正确 地 评估 模型 。 

此 后 ,我 们 深入 研究 机 器 学 习 分 类 模型 的 评估 ， 
主要 集中 在 典型 的 评价 指标 和 广泛 采用 的 图 形 工具 的 
使 用 上 。 然 后 ， 我 们 介绍 类 似 的 回归 模型 评价 工具 。 
最 后 ， 介 绍 参数 调整 这 一 简单 的 方法 优化 模型 的 预测 
性 能 。 
通过 本 章 的 学 习 ， 你 将 学 会 评价 第 3 章 构 建 的 机 器 
学 习 模 型 的 方法 与 原理 ， 并 优化 这 些 模型 的 预测 精度 
( 见 图 4-1) 。 模 型 评估 可 以 提供 重要 的 信息 ， 以 确定 构 
建 的 模型 是 否 足 以 胜任 解决 你 的 问题 ， 并 对 进一步 优化 图 4-1 机 融 学 习 流 程 中 
提供 参考 。 的 评估 与 优化 
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4.1 模型 泛 化 : 评估 新 数据 的 预测 准确 性 





有 监督 机 器 学 习 的 基本 目标 是 准确 预测 。 你 想 让 自己 的 机 器 学 习 模 型 在 进行 新 数据 
(目标 变量 未 知 的 数据 ) 预测 时 尽 可 能 的 准确 。 换 名 话说 ， 你 想 让 构建 在 训练 数据 之 上 的 模 
型 很 好 地 推广 到 新 数据 。 只 有 这 样 ， 当 把 模型 部 署 到 产品 中 时 ， 你 才能 确信 预测 结果 是 高 质 
量 的 。 

因此 ， 当 对 模型 进行 性 能 评估 时 ， 需 要 确定 模型 对 新 数据 的 性 能 如 何 。 这 看 似 简单 的 任 
务 却 充满 了 困难 与 陷阱 ， 即 使 经 验 丰 富 的 机 器 学 习 人 员 也 容易 身 陷 其 中 。 本 节 详 述 了 模型 评 
估 中 可 能 出 现 的 困难 ， 并 提供 了 一 个 简单 的 工作 流程 来 克服 这 些 问 题 ， 并 实现 模型 性 能 的 客 
观 评 佑 。 

4.1.1 问题 : 过 度 拟 合 与 乐观 模型 

为 了 描述 评估 模型 预测 准确 性 的 挑战 ， 最 容易 的 方式 就 是 从 实例 开始 。 

假定 你 要 预测 农场 每 英亩 (1larce =4046. 85m”) 玉米 的 产量 ， 与 使 用 新 杀 虫 剂 面积 的 比 
例 之 间 的 关系 。 对 于 这 个 回归 问题 ， 你 已 经 有 了 100 个 农场 的 数据 。 当 绘制 目标 与 特征 间 的 
关系 时 ， 很 明显 是 递增 的 非 线性 关系 ， 并 且 数 据 也 有 随机 的 波动 ， 如 图 4-2 所 示 。 
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00 02 04 06 08 10 
农场 使 用 杀 虫 剂 的 比例 
图 4-2 玉米 产量 回归 问题 的 训练 数据 ， 包 含 一 个 明显 的 信号 和 噪声 














现在 ， 假 定 你 要 使 用 简单 的 非 参 数 回 归 模 型 ， 构 建 玉 米 产 量 问题 的 预测 模型 (玉米 产 
量 作 为 杀 虫 剂 使 用 比例 的 函数 ) 。 一 个 最 简单 的 机 器 学 习 回归 模型 是 核 函 数 平滑 。 核 函数 平 
滑 (kernel smoothing) 使 用 局 部 平均 值 : 对 于 每 个 新 数据 点 的 目标 变量 3 只 有 在 训练 数据 的 
特征 值 接近 新 数据 点 的 特征 值 时 ， 采 用 目标 变量 的 平均 值 。 一 个 称 作 带宽 参数 ( bandwidth 
parameter ) 的 参数 控制 局 部 平均 值 的 窗口 大 小 。 
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泪 


图 4-3 所 示 展 示 了 带宽 参数 对 核 函 数 平滑 的 各 种 值 的 影响 。 对 于 大 的 带宽 参数 的 每 个 
输入 值 ， 几 乎 所 有 的 训练 数据 的 平均 值 都 用 于 预测 目标 。 这 使 得 模型 变 得 扁平 ， 且 对 于 训练 
数据 有 明显 的 欠 拟 合 (underfit) 趋势 。 相 似 地 ， 对 于 小 的 带宽 参数 ， 只 有 一 两 个 训练 数据 
的 特征 值 用 于 确定 输出 结果 。 因 此 ， 模 型 可 以 很 有 效 地 跟踪 数据 中 的 波动 情况 。 模 型 反映 的 
是 数据 本 身 的 内 在 噪声 而 不 是 真实 的 信号 ， 这 称 为 过 度 拟 合 。 你 要 掌握 一 个 平衡 : 不 能 大 欠 
( 拟 合 ) ， 也 不 能 太 过 ( 拟 合 ) 。 
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图 4-3 玉米 产量 训练 集 的 核 函 数 平滑 模型 的 3 种 拟 合 情况 。 对 于 值 比较 小 的 带宽 参数 ， 模 型 过 度 拟 
合 ， 产 生 过 度 起 伏 的 模型 。 对 于 值 较 大 的 带宽 参数 ， 模 型 从 拟 合 ， 产 生 过 于 扁平 的 模型 。 参 数 调整 
的 最 佳 选 择 看 起 来 应 该 是 正 拟 合 的 











现在 回 到 我 们 的 问题 上 来 : 确定 你 的 机 顺 学 习 模 型 ， 对 于 不 同 农场 的 数据 ， 预 测 的 泛 化 
能 力 如 何 。 这 个 过 程 中 的 第 一 步 是 选择 一 个 预测 质量 的 评价 指标 。 对 于 回归 ， 标 准 评价 指标 
是 均 方 误差 (Mean Squared Error，MSE) ， 它 是 目标 变量 真实 值 与 预测 值 之 差 的 平方 和 的 平 
均值 (本章 稍 后 ， 将 学 习 回 归 和 分 类 的 其 他 评价 指标 ) 。 

这 些 地 方 也 许 难于 理解 。 对 训练 集 进行 评估 ， 随 着 带宽 参数 的 减 小 ， 模 型 预测 的 误差 
(由 MSE 度量 ) 也 越 小 。 这 与 期 望 是 一 致 的 : 你 给 模型 的 自由 越 多 ， 它 跟踪 训练 数据 中 的 
模式 〈 信 号 和 噪声 都 是 如 此 ) 就 越 好 。 但 最 小 带宽 参数 的 模型 对 训练 数据 的 过 度 拟 合 最 严 
重 , 是 由 于 它 跟 踪 训 练 集中 的 每 个 随机 波动 引起 的 。 使 用 这 样 的 模型 对 新 数据 进行 预测 ， 预 
测 准确 率 会 很 低 ， 因 为 新 数据 有 独特 的 与 训练 集 不 同 的 随机 噪声 。 

因此 ， 训 练 集 误差 与 机 品 学 习 模 型 的 泛 化 误差 之 间 发 生 了 分 收 。 这 种 分 卜 在 图 4-4 所 
示 的 玉米 产量 数据 中 被 放大 。 对 于 值 较 小 的 带宽 参数 ，MSE 在 训练 集 上 的 评价 值 很 小 ， 然 
而 在 新 数据 上 的 MSE 值 却 很 大 (在 本 例 中 是 10 ,000 条 新 数据 ) 。 简 单 地 归结 为 : 模型 在 训 
练 集 上 的 预测 性 能 并 不 能 代表 对 新 数据 的 预测 性 能 。 因 此 ， 用 与 训练 集 相 同 的 数据 进行 模型 
性 能 评估 是 非常 危险 的 。 

警惕 训练 数据 的 双重 使 用 

在 模型 拟 合 和 评价 中 都 使 用 训练 数据 ， 会 使 你 对 模型 性 能 有 过 于 乐观 的 估计 。 这 将 导致 
你 最 终 选 择 不 太 好 的 模型 ， 故 对 新 数据 的 预测 性 能 较 差 。 
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训练 数据 误差 






一 新 数据 误差 





训练 数据 的 最 好 模型 : 
训练 数据 的 MSE=0.08， 
新 数据 的 MSE=0.50 
000 005/ 010 015 020 025 0.30 
新 数据 的 最 好 模型 。 平滑 带宽 
训练 数据 的 MSE=0.27 
新 数据 的 MSE=0.22 
图 4-4 玉米 产量 回归 问题 的 训练 集 误差 与 新 数据 的 误差 比较 。 训 练 集 误差 对 于 新 数据 
模型 的 性 能 度量 过 于 乐观 ， 尤 其 是 在 带宽 参数 比较 小 的 情况 下 。 使 用 训练 集 误差 作为 新 
数据 的 预测 误差 将 使 你 陷入 麻烦 。 





















































正如 在 玉米 产量 问题 中 看 到 的 ， 选 择 训练 集 MSE 最 小 的 ， 将 导致 选择 带宽 参数 最 小 的 
模型 。 在 训练 集 上 ， 模 型 的 MSE 为 0.08。 但 用 于 新 数据 预测 时 ， 模 型 的 MSE 为 0.50， 与 最 
优 模型 相距 其 远 (带宽 参数 =0. 12, MSE =0. 27)。 

你 需要 一 个 接近 新 数据 性 能 的 模型 评价 指标 ， 这 样 你 对 部 署 模 型 用 于 新 数据 预测 的 准确 
性 就 会 非常 自信 ， 这 是 下 一 小 节 的 主要 话题 。 


4.1.2 解决 方案 : 交叉 验证 


我 们 已 经 分 析 了 模型 评价 中 的 挑战 训练 集 误差 并 不 能 代表 模型 应 用 于 新 数据 的 误差 。 
为 了 正确 估计 模型 用 于 新 数据 的 错误 率 ， 你 必须 使 用 更 复杂 的 技术 ， 这 种 技术 称 作 交叉 验证 
(cross -validation， 简 称 CV) ， 严 格 使 用 训练 集 评 估 新 数据 的 准确 性 。 

交叉 验证 最 常用 的 两 种 方法 是 保持 法 (holdout method) 和 - 折 交 叉 验 证 (k -fold 
cross — validation ) 。 

保持 法 

使 用 相同 的 训练 数据 拟 合 模型 和 对 模型 进行 准确 性 评估 ， 往 往 产生 过 于 乐观 的 准确 性 指 
标 。 最 简单 的 解决 办 法 是 使 用 独立 的 训练 ( 子 ) 集 和 测试 ( 子 ) 集 。 只 使 用 训练 ( 子 ) 集 
拟 合 模型 ， 且 只 使 用 测试 ( 子 ) 集 评估 模型 的 准确 性 。 这 种 方法 称 之 为 保持 法 (holdout 
method ) ， 因 为 在 训练 模型 的 过 程 中 保留 了 训练 数据 的 随机 子 集 。 从 业者 通常 会 保留 20% ~ 
40% 的 数据 作为 测试 ( 子 ) 集 。 图 4-5 示 出 了 保持 法 的 基本 流程 ， 清 单 4-1 提供 了 保持 法 
的 Python 伪 代 码 。 
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第 4 章 模型 评估 与 优化 


清单 4-1 保持 法 交叉 验证 

# 假 定 我 们 有 两 个 输入 : 

# 特 征 (features) 输入 特征 矩阵 
# 目 标 (target ) 一 一 对 应 于 特征 的 目标 变量 数组 
features =rand(100,5) 

target =rand(100) >0.5 























N= features.shape[0] #The total number of instances 


N train =floor(0.7 *N)#The total number of training instances 
idx =random.permutation (N) 一 一 一 随机 下 标 


idx train =idx[:N_train] a 
下 标 划 分 


idx_test =idx[N_train:] 


features train =features [idx train,:] 

target train =target [idx_ train] 将 数据 分 成 训 
features test = features [1Qx_test,:] 练 集 和 测试 集 
target test =target [idx_ test] 


@ 随机 将 训练 集 分 成 
训练 ( 子 ) 集 和 测试 
( 子 ) 集 









@ 在 训练 子 ) 集 
上 训练 模型 





训练 ( 子 ) 集 







和 
一 


pg 
忽略 目标 









ey @) 在 测试 ( 子 ) 集 


上 进行 预测 








回 特征 . 
团 蒜 国 ” 检验 预测 
@ 将 测试 预测 与 测试 
目标 做 对 比 ， 进 行 
准确 性 评估 














图 4-5 交叉 验证 的 保持 法 流程 图 





现在 ,让 我 们 对 玉米 产量 数据 应 用 保持 法 。 对 于 每 个 带宽 参数 的 值 ， 应 用 三 七 (70/30 
分 ) 分 保持 法 ， 并 在 30% 的 保留 数据 上 计算 预测 的 MSE。 图 4-6 所 示 演 示 了 保持 法 估计 
MSE 与 应 用 新 数据 模型 的 MSE 的 比较 ,说 明了 两 个 问题 . 
1) 保持 法 计算 的 评估 误差 接近 模型 的 新 数据 误差 。 它 们 比 训练 集 的 估计 误差 更 接近 
( 见 图 4-4)， 特 别 是 在 带宽 参数 值 较 小 的 时 候 。 
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2) 保持 法 估计 误差 有 明显 噪声 。 它 们 在 平滑 的 新 数据 误差 附近 有 明显 的 波动 。 











一 新 数据 误差 一 保持 法 估计 误差 


均 方 误差 














新 数据 最 佳 模型 ; 最 佳 保 持 法 模型 : 
保持 法 MSE=0.30， 保持 法 MSE=0.14， 
新 数据 MSE=0.27 新 数据 MSE=0.27 




















到 4-6 ”玉米 产量 数据 集 上 的 保持 法 MSE 和 新 数据 MSE 的 比较 。 保 持 法 估计 误差 
是 新 数据 误差 的 无 偏 估 计 ， 但 噪声 严重 ， 因 为 -0 14 ~0.40 区 域内 ， 估 
计 误 差 在 最 佳 模 型 (带宽 =0. 12) 附近 波动 得 




















可 以 通过 重复 的 训练 -测试 集 划 分 ， 并 对 估计 结 果 取 平均 值 来 消除 噪声 。 但 在 多 次 循环 
中 ， 每 个 数据 点 会 被 多 次 分 配 到 测试 集中 ， 这 将 导致 结果 出 现 偏差 。 

更 好 的 方法 是 K - 折 交 叉 验 证 。 

玫 - 折 交叉 验证 

一 种 更 好 的 但 计算 密集 的 交叉 验证 方法 是 K - 折 交 又 验 证 。 和 保持 法 一 样 ，K - 折 交 叉 验 
证 依赖 于 学 习 过 程 中 的 训练 数据 隔离 。 主 要 区 别 是 ，K - 折 交 又 验证 随机 地 把 数据 分 成 个 互 
不 相交 的 子 集 ， 称 为 包 (fold) , 上 典型 地 选择 5 、10 或 20。 对 于 每 个 包 ， 对 模型 除 这 个 包 以 外 
的 数据 进行 训练 ， 这 个 包 中 的 数据 随后 用 于 模型 产生 预测 。 
当 所 有 个 包 循 环 处 理 之 后 ， 把 每 个 包 的 预测 值 进行 汇总 ， 并 与 真实 目标 变量 进行 比 
从 而 评估 准确 度 。 图 4-7 所 示 演 示 了 K - 折 交 叉 验证 ， 清 单 4-2 提供 了 它 的 伪 代 码 。 
清单 4-2 K- 折 交叉 验证 





较 





> 


N=features. shape [0] 


K =10 # 包 的 数量 


preds_kfold =np. empty (N) 


folds =np.random. randint (0,K,size =N) 


循环 处 理 所 有 包 
for idx in np.arange (K): 
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泪 


features train = features [folds + idx,:] 将 数据 划分 成 
target_train =target [folds + idx] 训练 和 测试 子 集 


features_test = features [folds == idx,:] 


Build and predict for CV folgd (to be filled out) 





model =train (features train,target train) 











preds_kfoldl[folds ==idx] =predict (model,features test) 


#accuracy =evaluate_acc (preds_kfold,target) 


Q@ 随机 划分 训练 数据 
为 [个 互 不 相交 的 Fold iin 1:k 
等 大 的 子 集 










Q@ 在 训练 子 集 
上 训练 模型 








-预测 时 


@@ 在 包子 集 上 
忽略 目标 i 


进行 预测 





















外 保存 包 i 的 预测 


@ 将 CV 预测 值 与 目标 、 佑 果 到 CV 预 测 数组 


进行 比较 ， 评 估 准 确 度 人 
mi | 


图 4-7 KK- 折 交 义 验证 流程 图 








最 后 ， 让 我 们 在 玉米 产量 数据 上 应 用 kK - 折 交 又 验证 。 对 于 每 个 带宽 参数 的 值 ， 应 用 
10 - 折 交 叉 验 证 ( 即 左 = 10 的 交叉 验证 ) ， 并 计算 交叉 验证 的 预测 MSE。 图 4-8 所 示 演 示 了 
K - 折 交 叉 验 证 估计 的 MSE 与 模型 新 数据 MSE 的 比较 。 很 明显 ，K - 折 交 义 验 证 估计 误差 与 
模型 应 用 于 将 来 数据 的 误差 非常 接近 。 


4.1.3 交叉 验证 的 注意 事项 


交叉 验证 提供 了 一 种 估计 机 器 学 习 模 型 准确 性 的 方式 。 它 非常 强大 ， 因 为 它 可 以 为 你 的 
任务 选择 最 佳 模型 。 

但 是 当 在 实践 中 应 用 交叉 验证 时 ， 需 要 注意 以 下 几 个 问题 : 

e 交叉 验证 方法 (包括 保持 法 和 - 折 法 ) 假定 训练 数据 是 有 代表 性 的 。 如 果 你 计划 将 

模型 部 署 用 于 新 数据 的 预测 ， 那 么 这 些 新 数据 就 必须 能 够 由 训练 数据 代表 它们 。 如 果 

不 能 ， 则 交叉 验证 估计 误差 对 于 将 来 的 新 数据 可 能 是 过 于 乐观 的 。 解 决 方案 : 保证 训 
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0 一 新 数据 误差 ” 一 K- 折 CV 估 计 误 差 


均 方 误差 








新 数据 最 佳 模型 ， 
K- 折 CV MSE=0.27， 
新 数据 MSE=0.27 





图 4-8 玉米 产量 数据 的 K- 折 CV MSE 与 新 数据 的 MSE 的 比较 。K - 折 CV 误差 是 
新 数据 模型 的 较 好 估计 ， 可 以 用 它 自信 地 估计 模型 误差 ， 并 选择 最 佳 模型 


练 数据 中 的 所 有 潜在 偏见 都 被 找到 并 最 小 化 。 

。 有 些 数据 集 的 特征 是 有 时 间 顺 序 的 。 例 如 ， 用 上 个 月 的 收入 来 预测 这 个 月 的 收入 。 如 
果 数 据 存 在 这 种 情况 ， 则 必须 保证 将 来 获得 的 特征 不 能 用 来 预测 历史 特征 。 解 决 方 
案 : 必须 对 保留 集 或 K- 包 数 据 进行 重 构 ， 确 保 训练 集 数据 的 收集 早 于 测试 集 (数据 
的 收集 ) 。 

e- 折 交叉 验证 中 包 的 数量 越 多 ， 估 计 误 差 越 好 ， 但 也 更 耗费 时 间 。 解 决 方案 : 只 要 
有 可 能 ， 至 少 使 用 10 个 包 (或 更 多 ) 。 对 于 训练 和 预测 较 快 的 模型 ， 可 以 使 用 单一 
保留 (leave - one -out) 交叉 验证 (k= 数据 实例 个 数 )。 

接 下 来 ， 你 将 建立 这 些 交 叉 验 证 工具 ， 并 深入 研究 如 何 对 分 类 模型 执行 严格 的 评价 。 


4.2 分 类 模型 评估 


















































对 于 分 类 模型 评估 的 讨论 ， 我 们 从 只 有 两 种 类 别 的 问题 开始 ， 也 称 之 为 二 元 分 类 或 二 进 
制 分 类 (binary classification)。 第 3 章 介绍 过 ， 在 机 器 学 习 中 ， 二 进 制 分 类 是 基于 多 因素 预 
测 正 / 负 结果 的 强 有 力 方法 。 疾 病 检测 和 幸存 预测 是 二 进 制 分 类 的 很 好 实例 。 

假定 你 要 根据 个 人 信息 、 社 会 信息 和 经 济 状 况 等 因素 预测 泰坦 尼克 号 乘客 是 否 幸存 。 你 
已 经 收集 了 你 所 知道 的 所 有 乘客 的 信息 ， 并 训练 分 类 器 ， 能 够 把 这 些 信 息 与 他 们 的 幸存 概率 
联系 起 来 。 你 第 一 次 见 到 这 个 实例 是 在 第 2 章 ， 但 图 4-9 还 是 列 出 了 泰坦 尼克 号 乘客 数据 集 
的 前 5 条 记录 。 

为 了 构建 分 类 器 ， 你 把 数据 集 输入 到 分 类 算法 中 。 因 为 数据 集 包 含 各 种 类 型 的 数据 ， 你 
需要 确信 算法 知道 如 何 处 理 这 些 类 型 。 如 前 面 章 节 讨 论 的 ， 在 训练 模型 之 前 ， 需 要 对 数据 进 
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目标 列 


! Passengerld ! Survived | Pclass ,Name | Gender | Age!SibSp! Parch! Ticket |Fare |Cabin!Embarked 
1Braund, Mr. Owen Harris 





1STON/02. 


1 
1 。 。 1 1 1 1 
0 7.925 
IHelkkinen, Miss Laina 1Female126 | 13101282 1 
| NE Fe KR NR ee ee i A We 
!Futrelle, Mrs. Jacques Heath ! I | 1 | | 1 
1 1 1 1 1 1 
1(Lily May Peel) | Female | 35 | 1 1 113803 153.1 1C123 I S 
1 记过 ns 
1373450 18.05 INaN 1S 














图 4-9 泰坦 尼克 号 乘客 数据 的 前 5 行 。 目 标 列 表明 乘客 在 沉船 中 是 幸存 还 是 死亡 


行 处 理 ， 但 在 本 章 中 ， 你 将 把 分 类 器 看 作 一 个 黑 盒 ， 它 已 经 知道 如 何 把 输入 变量 映射 到 目标 
变量 。 本 市 的 目标 是 评估 模型 优化 预测 精度 ， 并 与 其 他 模型 对 比 。 
数据 准备 完成 后 ， 进 行 下 一 个 任务 : 交叉 验证 。 将 全 部 数据 分 成 训练 集 和 测试 集 ， 用 保 
持 法 进行 交叉 验证 。 重 要 的 是 要 重申 ， 你 的 目标 不 是 获得 训练 数据 的 最 大 精度 模型 ， 而 是 获 
得 未 知 数据 的 最 高 预测 精度 。 在 模型 构建 阶段 ， 你 还 没有 这 样 的 数据 ， 因 此 只 能 假定 某 些 训 
练 数 据 对 学 习 算 法 不 可 见 。 图 4-10 所 示 给 出 了 这 个 特殊 例子 的 数据 划分 过 程 。 
全 部 数据 
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图 4-10 把 全 部 数据 分 成 训练 集 和 测试 集 ， 人 允许 进行 模型 评估 








训练 数据 准备 好 以 后 ， 就 可 以 构建 分 类 器 ， 并 在 测试 集 上 进行 预测 。 使 用 图 4-5 所 示 

的 保持 法 ， 可 得 到 测试 集中 所 有 行 的 预测 值 列 表 : 0 (死亡 ) 或 1 (幸存 )。 然 后 ， 可 以 进 
行 第 3 步 评 佑 流程 ， 把 预测 值 和 真实 值 进行 比较 ， 获 得 可 以 优化 的 性 能 指标 。 

分 类 模型 最 简单 的 性 能 测量 是 计算 正确 结果 的 比例 。 如 果 4 行 中 有 3 行 预测 是 对 的 ， 则 

可 以 说 在 这 个 特定 的 验证 集 上 ， 模 型 的 准确 度 是 3/4 =0.75, 或 75%。 图 4-11 示 出 了 这 个 
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结果 。 下 面 的 小 节 将 介绍 进行 比较 的 更 复杂 的 方法 。 
测试 集 标记 预测 值 


4 个 预测 中 有 3 个 是 对 的 。 
T 在 这 个 测试 集 上 ， 模 型 的 
0 准确 度 为 3/4=0.75, 或 75% 


图 4-11 对 比 测试 集 上 的 预测 值 和 真实 值 ， 可 得 到 模型 的 准确 度 


和 





4.2.1 分 类 精度 和 混淆 入 阵 


预测 提供 的 信息 不 仅 是 对 和 错 这 人 么 简单 。 例 如 ， 可 以 分 析 每 个 类 别 的 准确 度 (有 多 少 
预测 为 幸存 的 ， 但 实际 上 是 死亡 或 幸存 的 ) 。 对 于 二 进 制 分 类 ， 错 误 只 有 两 种 情况 : 真实 值 
为 1 预测 值 为 0， 或 真实 值 为 0 预测 值 为 1。 相同 地 ， 正 确 的 也 有 两 种 情况 ， 如 图 4-12 
所 示 。 








测试 集 标记 预测 值 


1 1 3 个 中 有 2 个 正确 分 类 为 1 
0 0 PR 1 个 中 有 1 个 正确 分 类 为 0 
1 1 3 个 中 有 1 个 错误 分 类 为 0 
1 0 1 个 中 有 0 个 错误 分 类 为 1 


图 4-12 统计 分 类 精度 和 误差 给 你 更 多 模型 准确 度 方 面 的 信 ， 











证 


在 许多 分 类 问题 中 ， 研 究 分 类 精度 或 分 类 混合 ， 比 简单 地 统计 准确 度 要 有 用 得 多 。 事 实 
证 明 ， 把 这 4 个 数 显示 在 2 x2 的 图 中 ， 是 十 分 有 帮助 的 ， 这 个 图 称 为 混 消 和 矩阵 (confusion 
matrix) ， 如 图 4-13 所 示 。 


3 个 中 有 2 个 正确 分 类 为 1 1/3 
1 个 中 有 1 个 正确 分 类 为 0 | 
3 个 中 有 1 个 错误 分 类 为 0 | 

1 个 中 有 0 个 错误 分 类 为 1 1 


图 4-13 把 分 类 精度 组 织 到 混淆 和 矩阵 中 





























每 个 矩阵 元 素 显示 了 分 类 精度 或 正 类 和 负 类 的 混合 。 图 4-14 所 示 描 述 了 图 4-13 的 
特定 混淆 矩阵 的 一 般 概念 一 一 接受 者 操作 特性 曲线 (ROC) ， 它 将 在 本 书 的 其 余部 分 中 广 
泛 使 用 。 刚 接触 这 些 术语 的 确 令 人 费解 ， 但 在 向 他 人 描述 你 模型 精确 度 的 时 候 ， 它 们 是 
很 重要 的 。 


4.2.2 准确 度 权衡 与 ROC 曲线 


到 目前 为 止 ， 你 看 到 的 输出 都 是 预测 的 类 别 ， 在 泰坦 尼克 号 的 例子 中 ，! 表示 幸存 ， 否 
08 
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真正 率 
(灵敏 度 ) 
假 负 率 ee 
- (缺失 率 ) 人 
真 / 假 正 / 负 率 
可 A 
号 真 负 率 不 论 预 测 是 否 正 确 正 类 或 负 类 数 目 
(特异 性 ) 占 总 数 的 比例 
假 正 率 
( 误 检 率 ) 











图 4-14 二 进 制 分 类 器 在 4 条 数据 上 测试 结果 的 混淆 矩阵 ， 
图 中 的 ROC 指标 在 下 方 进 行 了 拆 解 、 分 析 、 说 明 


则 为 0。 机 器 学 习 预 测 存在 一 定 程 度 的 不 确定 性 ， 许 多 分 类 算法 的 输出 结果 不 只 是 0 或 1 的 
预测 ， 而 是 预测 的 全 部 概率 (probabilities) 。 例 如 ， 就 像 我 们 的 泰坦 尼克 号 模型 中 是 否 幸存 
这 样 简单 的 预测 ， 幸 存 的 可 能 性 就 有 0.8，0. 99 或 0.5。 很 明显 ， 对 于 这 些 答案 的 信心 有 很 
大 的 不 同 ， 在 本 节 你 将 利用 这 些 信息 进一步 详细 地 评价 你 的 模型 。 

一 个 概率 分 类 器 (probabilistic classifier) 的 输出 是 我 们 所 说 的 概率 向 量 (probability 
vectors) 或 类 别 概率 (class probabilities) 。 对 于 测试 集中 的 每 一 行 ， 分 类 器 中 的 每 个 分 类 得 
到 一 个 0 ~1 之 间 的 实数 值 (总 和 为 1) 。 直 到 目前 ， 所 做 的 预测 是 根据 概率 是 否 大 于 0.5 决 
定 所 属 的 分 类 ， 在 前 面 的 章节 中 ， 还 以 此 结果 计算 全 部 的 性 能 指标 。 我 们 说 确定 分 类 的 阔 值 
(threshold) 为 0.5。 很 明显 ， 你 也 可 以 选择 其 他 办 值 ， 那 么 性 能 指标 将 得 到 不 同 的 值 。 

图 4-15 示 出 了 排序 概率 向 量 和 设置 0.7 阔 值 的 过 程 。 所 有 阔 值 线 以 上 的 都 预测 为 幸存 ， 
那么 你 可 以 与 实际 标记 进行 对 比 ， 得 到 该 国 值 的 混淆 和 矩阵 和 ROC 指标 。 如 果 你 对 0 ~1 的 效 
值 重复 执行 这 一 过 程 ， 即 可 得 到 ROC 曲线 ， 如 图 4-16 所 示 。 
















































































分 类 器 输出 : 排序 后 的 
类 别 概率 概率 
! 幸存 | 死 1 幸存 
15 1 0.092 308 1 0.705 疗 值 ， 
“幸存 概率 ">0.7 


EE 
17 1 0.646 

i tt 和 

18 1 0.740 54 1 0.698 
= 之 二 三 三 
19 1 0.460 ， 169 1 0.698 











图 4-15 ”泰坦 尼克 号 测试 集 的 预测 可 能 性 子 集 。 把 整个 表 按 幸存 概率 降序 排列 后 ， 可 以 设置 
一 个 闪 值 ， 高 于 阔 值 的 认为 幸存 。 注 意 ， 保 留 了 下 标 ， 便 于 知道 指 的 是 哪个 实例 


从 图 4-16 中 可 以 看 出 所 有 阐 值 的 混淆 和 矩阵， 使 得 你 在 评估 分 类 融 性 能 时 ，ROC 曲线 成 


为 一 种 强大 的 可 视 化 工具 。 对 于 任何 交叉 验证 过 程 ， 给 定 标记 的 真实 值 和 预测 值 ， 可 以 用 清 
单 4-3 所 示 代 码 得 到 ROC 曲线 。 
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清单 4-3 ”ROC 曲线 
import numpy as np 对 于 给 定 的 真实 和 预测 标记 ， 





返回 "个 阔 值 的 假 正 率 和 真正 率 


def roc_curve (ttrue_labels,predqicted probs,n points =100,pos_class =1): 











thr =np.linspace(0,l1,n points) 
tpr =np. zeros (n_points) 分 配 国 值 和 ROC 列 表 


fpr =np. zeros(n points) 


pos =true_labels ==pos_class 


neg =np.logical not (pos) 预先 计算 正 负 情况 ， 
于 循环 


n_pos =np.count_ nonzero (pos) 




















nneg =np.count_ nonzero (neg) 


for i,t in enumerate (thr): 





tpr[i] =np.count_ nonzero (np. logical_and( 对 于 每 个 靖 值 ， 
predicted probs >= t,pos))/h_pos 计算 真正 率 和 假 正 率 

fpr[i]=np.count nonzero(np.logical and( 
predicted probs >= t,neg))/Nh neg 


return fpr,tpr,thr 
1.0 


0.8 


0.6 





" 不 同 六 人 的 
a 混 清 答 阵 
并 





0.2 





0.0 





0.0 02 0.4 0.6 0.8 1.0 
假 正 率 


图 4-16 对 0~1 之 间 的 100 个 靖 值 ， 通 过 计算 混淆 矩阵 和 ROC 指标 得 到 的 ROC 曲线 。 
按照 惯例 ， 以 假 正 率 为 X 轴 ， 以 真正 率 为 Y 轴 






































如 果 跟 踪 一 下 ROC 曲线 ， 你 会 发 现 当 假 正 率 升 高 时 ， 真 正 率 下 降 。 这 种 平衡 在 机 器 学 
习 中 没有 “人 免费 的 午餐 ”， 因 为 你 可 能 牺牲 一 部 分 实例 ， 这 部 分 实例 有 更 大 的 把 握 是 正确 的 
或 者 相反 ， 这 和 你 选择 的 概率 阔 值 参数 有 关 。 

在 实用 中 ， 这 种 平衡 对 于 模型 评估 是 至 关 重 要 的 。 如 果 对 一 个 病人 按照 是 否 患 瘤 进 行 分 
类 ， 那么 最 好 是 把 一 部 分 额外 的 健康 人 分 类 为 病人 ， 而 避免 把 病人 划分 成 健康 人 。 因 此 需要 
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选择 假 负 率 最 小 的 阔 值 ， 把 真正 率 最 大 化 ， 这 样 可 使 你 尽 可 能 地 位 于 ROC 的 顶端 ， 同 时 牺 
牲 假 正 率 。 

另 一 个 很 好 的 例子 是 垃圾 邮件 过 滤 ， 你 需要 选择 不 想 要 的 邮件 出 现在 收 件 箱 ， 还 是 邮件 
被 投 到 垃圾 桶 中 。 或 信用 卡 公司 检测 其 诈 行为 : 你 是 选择 对 客户 错 敲 警钟 ， 还 是 选择 错失 洪 
在 的 欺诈 交易 ? 

除了 平衡 信息 外 ，ROC 曲线 本 身 还 提供 分 类 器 总 体 性 能 的 视图 。 一 个 好 的 分 类 器 应 该 
是 没有 假 正 情 况 的 ， 并 且 没 有 缺失 情况 ， 因 此 曲线 被 推 向 左上 角 ， ed dots 
然 地 给 出 了 另 一 个 评价 指标 : ROC 曲线 的 线 下 面积 (AUC) 。 面 积 越 大 ， 分 类 效果 越 好 。 
AUC 被 广泛 用 于 评估 和 模型 比较 ， 虽 然 大 多 数 情况 下 ， 它 主要 用 于 观察 整个 ROC 曲线 ， 理 
解 性 能 的 权衡 。 在 本 书 余下 的 部 分 中 ， 你 将 使 用 ROC 曲线 和 AUC 评价 指标 对 分 类 模型 进行 
验证 。 计 算 ROC 曲线 的 AUC 的 代码 见 清单 4-4。 


1.0 


模型 更 好 
0.8 ~ 
模型 更 坏 
0.6 Bs 











四 
































真正 率 
0.4 
线 下 面积 AUO) 
0.2 
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假 正 率 


图 4-17 ROC 曲线 显示 了 模型 整体 性 能 。 可 通过 AUC 指标 对 其 进行 量化 






































清单 4-4 ”ROC 曲线 线 下 面积 的 计算 


from numpy import trapz 





















































def auc (true labels,predicted labels,pos class =1): 给 定 真实 标记 和 
分 类 模型 预测 的 
fpr,tpr,thr =roc curve (true labels,predicted labels, 对 应 标记 ， 返 加 
pos_class =pos_class) ROC 线 下 面积 
= 
area = -trapz (tpr,x = fpr) 清单 4-3 中 的 ROC 
的 假 正 率 和 真正 率 
人 
numpy 中 使 用 梯形 方 
法 计算 的 积分 面积 


4.2.3 多 类 别 分 类 
截止 到 目前 ， 你 只 看 了 二 进 制 的 ， 或 两 个 类 别 的 分 类 问题 ， 但 很 幸运 的 是 你 可 以 对 
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多 类 别 分 类 使 用 许多 相同 的 工具 进行 评价 。 著 名 的 多 类 别 分 类 问题 是 手写 数字 识别 。 
我 们 经 常 发 送 物理 邮件 ， 机 带 学 习 算 法 用 于 确定 邮件 目的 地 大 有 用 处 。 如 果 你 写 的 字 
像 我 们 的 一 样 ， 这 听 起 来 是 一 个 不 小 的 挑战 , 但 这 种 自动 识别 系统 用 于 邮政 服务 已 经 
很 多 年 了 。 

因为 手写 数字 识别 成 功 较 早 ， 所 以 这 个 例子 已 经 成 为 多 类 别 分 类 性 能 的 机 器 学 习 的 学 术 
标准 。 它 的 思想 是 扫描 手写 数字 ， 把 它们 划分 到 某 个 数字 标识 的 图 片 中 。 然 后 ， 对 原始 灰 度 
像素 使 用 图 片 处 理 算法 或 构建 多 类 别 分 类 融 以 预测 数字 。 图 4-18 示 出 了 一 些 来 自 著名 的 


iIls42 
THOFS YI 
Ss I0cC 
三 bda0Oo 


图 4-18 MNIST 数据 集中 的 手写 数字 。 整 个 数据 集 含有 80 ,000 个 这 样 的 数字 ， 都 
是 28 px x28 px 的 图 片 。 不 经 过 任何 图 像 处 理 ， 数 据 集 的 每 一 行 包含 已 知 的 标记 (0 ~ 
9) 和 784 个 特征 (每 个 特征 对 应 一 个 像素 ) 


使 用 随机 森林 算法 从 训练 集中 构建 分 类 器 ， 并 从 保留 测试 集中 产生 的 混淆 矩阵 。 记 住 ， 
你 只 对 二 进 制 分 类 使 用 过 混淆 矩阵。 很 幸运 ， 对 于 多 类 别 分 类 也 可 以 容易 地 使 用 它 ， 因 为 矩 
阵 中 的 每 个 元 素 是 分 类 行 和 分 类 列 的 对 应 值 。 对 于 MNIST 分 类 器 ， 在 图 4-19 中 可 以 看 出 其 
大 部 分 位 于 对 角 线 上 ， 它 应 该 是 这 样 的 ， 因 为 它 显 示 了 对 于 每 个 数字 分 类 正确 的 情况 。 最 大 
的 非 对 角 线 元 素 是 分 类 器 最 不 确定 的 地 方 。 仔 细 观 察 图 4-19， 你 会 发 现 最 不 确定 的 发 生 在 
数字 4 和 9, 3 和 5, 还 有 7 和 9 之 间 ， 这 很 有 意义 ， 给 出 了 你 所 知道 的 数字 形状 的 信息 。 

以 矩阵 的 形式 显示 每 个 分 类 的 准确 度 ， 是 利用 我 们 优秀 的 可 视 化 能 力 处 理 更 多 的 信 
息 。 在 图 4-19 中 ， 可 以 很 明显 地 看 出 如 何 对 照 混淆 和 矩阵， 充分 利用 这 种 能 

那么 你 将 如 何 生成 多 类 别 分 类 器 的 ROC 曲线 呢 ? ROC 曲线 原则 上 只 适用 于 二 进 制 分 
类 问题 ， 因 为 你 为 了 得 到 ROC 测量 指标 ， 把 预测 结果 分 成 了 正 (positive) 和 负 (nega- 
tive) 两 类 ， 通 常用 于 ROC 曲线 的 坐标 轴 。 为 了 在 多 分 类 问题 中 模拟 二 进 制 分 类 ， 这 里 采 
取 一 对 多 (one - versus -al) 策略 。 对 于 每 个 分 类 ， 把 特定 的 分 类 作为 正 分 类 ， 其 他 的 
作为 负 分 类 ， 和 通常 一 样 画 ROC 曲线 。 在 NMIST 分 类 器 上 执行 上 述 过 程 ， 得 到 的 10 条 
ROC 曲线 如 图 4-20 所 示 。 分 类 最 准确 的 数字 是 0 和 1， 与 图 4-19 所 示 的 混淆 矩阵 一 致 。 
混淆 和 矩阵 是 由 绝 大 部 分 可 能 的 预测 分 类 产生 的 ， 而 ROC 曲线 显示 了 某 一 分 类 在 所 有 可 能 
阔 值 上 的 性 能 。 
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预测 数字 
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图 4-19 ”10 类 MNIST 手写 数字 分 类 问题 的 混 消 和 矩阵 








1.00 





0.98 





0.96 


0.94 





真正 率 0.92 


0.90 


0.88 


0.86 


-一 数字 4, AU 
数字 5, AU 
数字 6, AU 

一 一 数字 7, AU 

一 一 数字 8, AU 





数字 9, AU 


C 为 0.996 
C 为 0.998 


C 为 0.993 
C 为 0.988 
C 为 0.995 
C 为 0.989 
C 为 0.998 
C 为 0.995 
C 为 0.992 
C 为 0.989 





00 0.005 0.010 0.015 0.020 0.025 0.030 0.035 0.040 
假 正 率 
图 4-20 用 “一 对 多 ”策略 模拟 二 进 制 分 类 问题 ，10 个 类 别 的 MNIST 分 类 器 的 每 个 分 类 的 ROC 曲线 。 
注意 ， 因 为 我 们 的 分 类 器 足够 好 ， 所 以 只 有 放大 ROC 曲线 的 顶部 角落 才能 看 到 模型 在 不 同 分 类 上 的 性 
能 差异 。 计 算 了 每 个 分 类 的 AUC， 并 展示 了 整体 性 能 良好 的 模型 

















记 住 ， 多 类 别 ROC 曲线 并 不 能 显示 曲线 的 完全 混淆 矩阵 。 从 原理 上 讲 ， 对 于 ROC 曲线 
上 的 每 一 点 ， 对 应 一 个 10 x 10 的 混淆 矩阵 ， 但 我 们 不 能 以 如 此 简单 的 方式 来 显示 它 。 在 多 
类 别 情况 下 ， 同 时 观察 混淆 和 矩阵 和 ROC 曲线 是 十 分 重要 的 。 
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4.3 回归 模型 评估 








在 前 一 章 你 已 看 到 过 回归 模型 。 通 常 ， 回 归 (regression ) 这 个 术语 用 于 预测 结果 为 数 
值 型 的 模型 ， 如 整数 或 浮 点 数 的 值 。 对 于 回归 ， 你 将 使 用 我 们 在 本 节 中 介绍 的 不 同 的 指标 评 
价 体系 。 

在 本 节 ， 你 将 使 用 第 2 章 介 绍 的 车 辆 MPG 数据 作为 实例 。 图 4-21 所 示 显 示 了 该 数据 集 
的 一 小 部 分 子 集 。 对 数据 集 进 行 所 有 必要 的 转换 ， 并 从 第 2 章 和 第 3 章 讨论 的 模型 中 选择 一 
个 合适 的 模型 。 在 这 里 ， 你 所 关心 的 是 评价 模型 的 性 能 。 使 用 本 章 开 头 部 分 介绍 的 基本 模型 
评价 流程 ， 使 用 数据 和 选择 的 算法 构建 一 个 交叉 验证 的 回归 模型 。 在 这 个 过 程 中 ， 可 能 用 到 
的 模型 性 能 指标 将 在 下 节 中 介绍 ， 但 图 4-22 所 示 展 示 了 回归 性 能 的 基本 可 视 化 效果 ， 这 是 
评价 指标 的 基础 一 一 预测 值 和 实际 值 的 散 点 图 。 




















目标 变量 





英里 /加 仑 | 汽 负 数 | 排 气 量 | 马力 ”| 重量 ”| 加 速度 | 车 型 年 | 血统 
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图 4-21 和 车辆 MPG 数据 集 的 子 引 
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图 4-22 测试 集 预 测 MPG 与 真实 值 的 散 点 图 ， 对 角 线 显示 了 最 佳 模型 
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泪 


4.3.1 使 用 简单 回归 性 能 指标 


与 分 类 模型 相 比 ， 回 归并 没有 简单 的 概念 说 明 预 测 是 否 正确 (correct)。 一 个 数值 型 的 
预测 结果 通常 不 能 说 绝对 正确 ,但 可 以 说 接近 (close to) 或 远离 (far from) 真实 值 。 这 也 
是 由 正确 值 的 性 质 所 决定 的 ， 因 为 我 们 通常 认为 ， 数 值 测量 是 从 带 有 不 确定 性 的 分 布 中 取得 
的 ， 这 种 不 确定 性 称 为 误差 (error) 。 本 节 介 绍 两 种 简单 的 回归 性 能 测试 指标 : 均 方 根 误差 
( MSE 的 平方 根 ) 和 R 平方 值 。 

回归 模型 最 简单 的 性 能 测量 是 均 方 根 误差 (root - mean - square error) 或 RMSE。 主 要 
是 估计 预测 值 与 真实 值 的 差异 ， 并 计算 其 平均 值 。 计 算 平均 值 的 方式 与 预测 值 高 于 还 是 低 于 
真实 值 没有 关系 。 图 4-23 所 示 演 示 了 RMSE 的 计算 。 
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图 4-23 RMSE 计算 : 在 方程 式 中 ，y, 和 x; 分 别 为 六 特征 和 特征 向 量 。f(x) 

















表示 将 模型 应 用 于 特征 向 量 返 回 的 目标 变量 的 预测 值 

















为 了 更 好 地 理解 RMSE 计算 的 细节 ， 清单 4-5 给 出 了 计算 RMSE 的 代码 片段 。 
清单 4-5 均 方 根 误差 计算 


def rmse (true values,predicted values): 
n=lenl(true values) 
residuals =0 
for i in range(n): 
residuals += (true values[i]- predictedqd values[i])**2. 


return np.sqrt (residuals /Nn) 


RMSE 的 优点 在 于 ， 结 果 与 参与 计算 的 值 有 相同 的 单位 ,但 也 有 一 个 缺点 ， 那 就 是 
RMSE 的 值 和 问题 的 规模 有 关 ， 不 容易 在 不 同 的 数据 集 上 进行 比较 。 如 果 预 测 值 和 真实 值 都 
是 大 数值 ， 那 么 RMSE 的 值 相 应 地 也 较 大 。 虽 然 在 同一 项 目 中 进行 模型 比较 没有 问题 ,但 如 
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果 理 解 整体 模型 的 性 能 和 与 其 他 模型 做 比较 ， 则 还 是 有 一 定 难 度 的 。 

为 了 克服 这 一 点 ， 最 好 的 办 法 就 是 计算 R 平方 , 或 R 指标 ， 它 的 值 具有 相对 性 ， 并 且 
在 0~1 之 间 。 模 型 对 数据 的 预测 性 越 好 ， 那 么 R 平方 就 越 接近 于 1。 清 单 4-6 显示 了 R 平 
方 的 计算 细节 。 

清单 4-6 R 平方 的 计算 























def r2 (true_Vvalues,Dredqicted_ values ) : 
n=lenl(true values) 
mean =np.mean (true_values) 


residuals =0 


total =0 

for i in range(n): 
residuals += (true_ values[i] - predicted values [i])**2. 
total += (true values[i] - mean)**2. 


return1.0 - residuals/total 


无 论 使 用 MSE 、RMSE 或 忆 作为 评价 指标 ， 都 必须 牢记 如 下 事实 : 

e 经 常 使 用 交叉 验证 评估 模型 。 如 果 不 这 样 ， 评 价 指标 会 随 着 模型 复杂 度 的 增 大 而 提 

高 ， 从 而 导致 过 度 拟 合 

e 只 要 有 可 能 ， 评价 指标 应 与 要 解决 的 问题 保持 一 致 。 例 如 ， 要 从 车 辆 特征 预测 MPG 

(英里 /加 仑 ) ，RMSE 的 值 为 5 意思 是 ， 你 期 望 的 MPG 的 平均 预测 值 与 真实 值 的 偏差 

不 超过 5 英里 /加 仑 。 

另外 ， 回 归还 使 用 其 他 很 多 评价 指标 ， 且 许多 都 内 置 过 度 拟 合 的 预防 机 制 (因此 不 需 
要 交叉 验证 ) 。 例 如 ，Akaikie 信息 准则 (AIC) 和 贝 叶 斯 信息 准则 (BIC) 。 大 多 数 关于 回归 
的 教科 书 都 对 此 进行 了 分 析 ， 并 包含 了 更 多 高 级 的 话题 。 


4.3.2 检验 残 差 


在 前 一 节 ， 你 看 到 了 残 差 如 何 应 用 于 介绍 的 简单 指标 ， 所 谓 残 差 是 指 预 测 值 与 真实 值 之 
间 的 距离 。 这 些 残 差 对 于 可 视 化 分 析 来 说 也 是 十 分 重要 的 。 

图 4-24 给 出 了 MPG 数据 集 的 残 差 图 样 例 。 它 与 图 4-23 所 示 的 散 点 图 表示 同样 的 
信息 ， 但 根据 残 差 的 单位 进行 了 放大 。 理 想 情 况 下 ， 你 期 望 残 差 在 0 线 (0 -line) 附 
近 随 机 分 布 。 在 图 的 低 端 ，MPG 的 值 从 10 ~35， 看 起 来 残 差 随机 分 布 在 0 线 附 近 ， 也 
许 对 高 估 值 略 有 偏差 。 然 而 ,在 35 ~45 之 间 ， 可 以 看 到 明显 的 低估 偏差 ， 导 致 残 差 值 
较 大 。 你 可 以 利用 这 个 信息 来 改进 模型 ， 或 者 调整 模型 参数 ， 或 者 对 数据 进行 处 理 或 
修补 。 如 果 能 再 获得 一 些 数 据 ， 你 应 该 获取 一 些 高 MPG 的 样本 。 在 这 种 情况 下 ， 你 能 
找到 一 些 高 MPG 的 车 辆 ， 并 把 它们 添加 到 数据 集中 ， 以 进一步 提升 模型 在 该 区 域 的 预 
测 性 能 

你 已 见 过 如 何 将 交叉 验证 用 于 测试 模型 ， 以 及 某 些 用 于 评估 结果 的 性 能 指标 。 对 于 最 
i Wl 测试 和 计算 适当 的 性 能 指标 的 问题 。 更 复杂 的 算法 有 调整 参 
影响 它们 的 训练 和 应 用 。 每 种 设置 的 组 合 可 产生 不 同 的 模 
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图 4-24 MPC 数据 集 预测 的 残 差 图 。 在 水 平 0 线 上 ， 残 差 为 0 








式 。 在 下 一 节 中 ， 你 将 看 到 ， 有 时 一 些小 的 调整 将 会 对 结果 产生 很 大 的 影响 。 
4.4 参数 调整 优化 模型 


大 多 数 机 器 学 习 模 型 都 有 一 个 或 多 个 调整 参数 (tuning parameters) 控制 学 习 算法 的 内 
部 工作 状态 。 这 些 参数 典型 地 控制 着 输入 特征 和 目标 变量 之 间 关 系 的 复杂 性 。 调 整 参数 会 对 
模型 拟 合 和 新 数据 预测 的 准确 性 产生 很 大 影响 。 

例如 ， 在 4.1 节 你 已 经 看 到 一 个 简单 的 调整 参数 ( 核 平滑 回归 算法 的 带宽 参数 ) 
是 如 何 影响 玉米 产量 数据 模型 的 拟 合 度 的 。 对 于 带宽 参数 较 小 的 值 ， 回 归 函 数 过 度 起 
伏 ， 对 数据 过 度 拟 合 。 相 似 地 ， 对 于 带宽 参数 较 大 的 值 ， 回 归 函 数 过 于 扁平 ， 对 数据 
从 拟 合 。 

本 节 介 绍 一 种 严格 的 方法 ,通过 调整 算法 的 参数 优化 机 可 学 习 模 型 。 


4.4.1 机 器 学 习 算 法 和 它们 的 调整 参数 


每 个 机 器 学 习 算 法 包含 一 系列 调整 参数 ， 用 于 控制 算法 如 何 使 用 训练 数据 构建 模型 。 典 
型 的 情况 是 ， 随 着 算法 复杂 度 的 增加 ， 调 整 参 数 就 会 越 多 ， 而 且 更 难于 理解 。 下 面 是 你 在 第 
3 章 学 过 的 流行 的 分 类 算法 的 标准 调整 参数 ， 按 难度 递增 的 顺序 罗列 如 下 : 

。 逻辑 回归 一 一 无 。 

。 K -近邻 算法 一 一 要 平均 的 近邻 数目 。 

。 决策 树 一 一 划分 标准 ， 树 的 最 大 深度 ， 划 分 需要 的 最 少 样本 数 。 

。 核 函 数 SVM 一 一 核 函 数 类 型 ， 核 函数 系数 ， 惩 罚 参 数 。 

。 随机 森林 一 一 树 的 数目 ， 每 个 结 点 要 划分 的 特征 数 ， 划 分 标准 ， 划 分 需要 的 最 少 样 
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本 数 。 
e Boosting 算法 一 一 树 的 数目 ， 学 习 率 ， 树 的 最 大 深度 ， 划 分 标准 ， 划 分 需要 的 最 少 样 
本 数 。 


作为 实例 ， 回 想 一 下 第 3 章 ， 你 对 泰坦 尼克 号 乘客 数据 集 应 用 的 核 函 数 SVM 算法 。 你 
看 到 模型 拟 合 的 核 阴 数 系数 有 两 种 〈 称 为 gamma) 选择 ( 见 图 3-8 和 图 3-9)。 注 意 ， 这 两 
种 拟 合 是 有 区 别 的 : 设置 gamma =0.01， 在 两 个 类 别 之 间 产 生 一 个 复杂 的 、 分 离 的 决策 边 
界 ， 而 设置 gamma =0. 1 则 产生 一 个 平滑 的 模型 。 在 这 种 情况 下 ， 拟 合 模型 对 调整 参数 gam- 
ma 的 选择 是 高 度 敏 感 的 。 

对 每 个 调整 参数 选择 恰当 的 值 之 所 以 困难 ， 是 因为 对 于 给 定 的 算法 是 完全 依赖 于 问题 和 
数据 的 。 对 于 一 个 问题 工作 得 很 好 ， 但 不 一 定 适 合 下 一 个 问题 。 依 靠 启 发 式 和 经 验 法 则 的 默 
认 参 数 设 置 ， 会 导致 极 差 的 预测 性 能 。 严 格 地 调整 参数 选择 ， 对 于 保证 模型 的 准确 度 和 训练 
数据 (的 准确 度 ) 一 样 ， 是 至 关 重 要 的 。 


4.4.2 网 格 搜索 


优化 机 器 学 习 模型 的 调整 参数 选择 的 标准 方法 是 强力 网 络 搜索 (grid search) 。 当 你 详 
细 规 划 出 以 下 基本 网 络 搜索 算法 时 ， 注 意 ， 这 个 策略 是 将 本 章 前 面 讨论 的 交叉 验证 和 模型 评 
佑 结合 在 一 起 的 。 网 络 搜索 算法 如 下 : 

1) 选择 要 最 大 化 的 评价 指标 (例如 ， 分 类 模型 的 AUC， 回 归 模 型 的 R? )。 

2) 选择 要 使 用 的 机 器 学 习 算 法 (例如 ， 随 机 森林 )。 

3) 选择 要 优化 的 调整 参数 (例如 ， 树 的 数目 和 每 次 划分 的 特征 数 ) ， 以 及 每 个 参数 的 
一 组 测试 值 。 

4) 定义 调整 参数 数组 之 间 的 笛 卡 儿 积 作为 网 格 。 例 如 ， 树 的 数目 数组 为 [50, 100， 
1000] ， 每 次 划分 的 特征 数 数 组 为 [10,15]， 则 网 格 就 是 [(50,10),(50,15),(100,10)， 
(100,15) ,(1000,10) ,(1000,15)] 。 

5) 对 于 网 格 中 的 每 一 个 组 合 ， 使 用 训练 集 进行 交 又 验证 (使 用 保持 法 或 K- 折 CV 
法 ) ， 并 且 对 交叉 验证 的 预测 计算 评价 指标 。 

6) 最 后 ， 选 择 评 价 指标 最 大 值 对 应 的 调整 参数 进行 设置 ， 这 就 是 最 优 模型 。 

为 什么 这 样 能 奏效 呢 ? 对 于 每 种 可 能 的 调整 参数 的 组 合 ， 网 格 搜索 进行 了 广泛 搜索 。 对 
于 每 种 组 合 ， 网 格 搜索 通过 比较 交叉 验证 预测 和 真实 目标 变量 ， 估 计 了 模型 对 新 数据 的 预测 
性 能 。 然 后 ， 最 佳 估计 精度 的 模型 (对 于 新 数据 ) 被 选择 。 当 这 个 模型 用 于 新 数据 时 ， 最 
有 可 能 性 能 最 好 。 

让 我 们 把 网 格 搜索 用 于 泰坦 尼克 号 乘客 的 数据 集 。 使 用 AUC 作为 优化 指标 ， 径 向 基 范 
数 (Radial Basis Function，RBF) 核 的 SVM 作为 分 类 算法 。 原 则 上 ， 你 还 可 以 使 用 网 格 搜 
索 选 择 最 佳 核 函 数 。 事 实 上 ， 还 可 以 使 用 网 格 搜索 选择 不 同 的 算法 ! 

下 一 步 ， 选 择优 化 哪个 调整 参数 。 对 于 RBF 核 函 数 SVM 算法 ， 有 两 个 标准 调整 参数 ; 
核 函 数 系数 gamma 和 惩罚 参数 C。 清 单 4-7 示 出 了 如 何 对 该 问题 的 两 个 调整 参数 运行 网 格 
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4 章 模型 评估 与 优化 


泪 


搜索 。 


清单 4-7 核 函 数 SVM 的 网 格 搜索 
输入 : X 一 一 特征 ,y 一 一 目标 





import numpy as np 
from sklearn.metrics import roc auc_score 
from sklearn. svm import SVC 





要 尝试 的 (gamma,C) 网 格 
gam vec,cost vec =np.meshgrid (np.linspace(0.01,10.,11), 
np.linspace(l.,10.,11)) 





AUC_all = [] 初始 化 空 数组 存储 AUC 

# 建 立交 叉 验 证 的 包 

N=1len(y) 

K=10 交叉 验证 
folds =np.random. randint (0,K,size=N) 包 的 数目 
# 对 网 格 的 每 个 值 进行 搜索 


for param ingd in np.arange (len (gam vec.ravel ())): 


初始 化 效 验 验 证 预测 


Y_cv_pred =np. empty (N) 








遍历 交叉 验证 的 包 
for ii in np.arange (K): 


# 将 数据 分 成 训练 子 集 和 测试 子 集 





Xtrain =X.ix[folds 1= ii,:] 
y_train =y.ix[folds != ii] 
X_test =X.ix[folds = = ii,:] 


# 在 训练 集 上 构建 模型 
model = SVC (gamma = gam_Vec.Travel 1() [param_ ind], 
C =cost_vec.ravel () [param ind]) 


model.fit(X train,y_train) 


# 在 测试 集 上 产生 并 保存 模型 的 预测 


y_cv_predl[lfolds = = ii] =model.predict (X_ test) 





A 














# 对 预测 值 计算 AUC 
AUC_all.append (roc_auc_ scorel(ly,y_cv_pred)) 
indmax =np.argmax (AUC_all) 


9 


print "Maximum=%$ .3f"% (np.max(AUC all)) 


print "Tuning Parameters: (gamma =% f,C =% f)"% (gam vec.ravel()[indmax], 


Cost_vec.ravel () [indmax]) 
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实用 机 器 学 习 





(代码 说 明 如 下 图 : (1) 初始 化 空 数组 存储 AUC、(2) 交 义 验证 包 的 数目 ) 


Inputs:X - features,y - target 


import numpy as np 
from sklearn.metrics import roc auc score 


from sklearn. svm import SVC 





grid of (gamma,C) values to try 
gam vec,cost_ vec=np.meshgrid (np.linspace(0.01,10.,11), 


np.linspace(1l.,10.,11)) 


AUC_all = [] 


初始 化 空 数组 
诸 AUC 
#set up cross -Validqation folds 存储 
N=1lenly) 
其 二 二 站 人 
交叉 验证 
folds =np.random.randint (0,K,size=N) 包 的 数目 











你 发 现在 泰坦 尼克 号 数据 集 上 ， 调 整 参 数 向 量 为 (gamma =0.01，C =6) 时 ， 交 叉 验 
证 AUC 最 大 ,为 0.670。 显 示 网 格 搜索 的 AUC 评价 值 的 等 高 线 图 如 图 4-25 所 示 ， 信 息 量 丰 
富 。 从 图 中 可 以 看 出 如 下 事实 : 





10 r r 
8 J 
6 | 
惩罚 参数 C 
4 J 
2 了 














2 4 6 8 10 
核 函 数 系 数 gamma 

图 4-25 ”交叉 验证 AUC 的 等 高 线 图 (contour plot) ，AUC 作为 两 个 调整 参数 gamma 和 C 的 函数 。 
最 大 值 集中 在 左上 角 ， 意 味 着 你 需要 扩大 搜索 并 密切 关注 这 一 区 域 

















。 最 大 值 发 生 在 网 格 的 边界 ( 即 gamma =0. 01 时 ) ， 这 意味 着 你 必须 扩大 网 格 重新 进行 


网 格 搜索 。 
。 准确 预测 对 于 gamma 参数 的 数值 有 较 高 的 灵敏 度 ， 意 味 着 你 需要 增加 该 参数 的 样本 
粒度 0 


80 


4 章 模型 评估 与 优化 


注 


。 最 大 值 出 现在 gamma =0 附近 ， 因 此 以 指数 标识 (如 10 、10、10 一 、10”… ) 表示 
网 格 是 明智 的 。 

e AUC 作为 参数 C 的 函数 灵敏 度 不 高 ， 因 此 对 于 该 参数 可 采用 粗 粒 度 样 本 。 

在 修改 后 的 网 格 上 重新 运行 搜索 ， 得 到 AUC 的 最 大 值 为 0.690， 发 生 在 向 量 (gamma = 
0.08，C =20) 处 。 调 整 参 数 的 优化 价值 是 显而易见 的 : 一 个 任意 选择 调整 参数 的 简单 模 
型 ， 可 能 得 到 AUC =0.5 ( 比 随机 猜测 强 不 到 哪里 去 ) ; 网 格 搜索 优化 后 的 模型 ，AUC 可 提 
高 到 0. 69。 

注意 ， 网 格 搜索 并 不 能 绝对 保证 选择 到 的 调整 参数 为 最 佳 组 合 。 因 为 网 格 的 可 能 值 是 有 
限 的 ， 实 际 最 佳 值 可 能 落 在 网 格 的 值 之 间 的 某 处 。 熟 悉 优 化 的 读者 可 能 会 比较 疑惑 ， 更 复杂 
的 优化 例 程 为 什么 不 用 于 调整 参数 的 选择 呢 ? 目前 的 回答 就 是 ， 非 求 导 、 非 凸 优化 尚未 成 为 
标准 的 机 器 学 习 的 一 部 分 。 较 长 远 一 点 的 回答 是 ， 机 器 学 习 前 沿 领域 的 研究 人 员 正 在 将 这 些 
方法 纳入 调整 参数 的 优化 策略 。 















































4.5 总 结 


本 章 介 绍 了 基本 的 机 带 学 习 模型 性 能 评估 ， 主 要 内 容 如 下 : 

e 当 进 行 模型 评 佑 时， 训练 数据 一 定 不 能 两 用 ， 不 能 既 用 于 训练 又 用 于 评估 。 

e 保持 交叉 验证 是 最 简单 的 交叉 验证 。 为 了 更 好 地 评估 模型 的 泛 化 性 能 ， 保 留 测 试 集 用 

于 预测 。 

。 在 KK-- 折 交 又 验证 中 ,个 包 每 次 保留 一 个 ， 提 供 更 可 靠 的 模型 性 能 评估 。 这 种 提高 

是 由 高 计算 量 换 来 的 。 如 果 有 可 能 ，k = 样本 个 数 时 可 获得 最 好 的 估计 ， 也 就 是 单一 
保留 交叉 验证 。 

e 基本 模型 评价 流程 如 下 : 

1) 数据 采集 和 预 处 理 (参见 第 2 章 ) ， 并 确定 适当 的 机 器 学 习 方法 与 算法 (参见 

第 3 章 )。 

2) 根据 可 获得 的 计算 资源 ， 使 用 保持 法 或 K - 折 交 叉 验 证 构建 模型 并 进行 预测 。 

3) 根据 机 器 学 习 方 法 是 分 类 还 是 回归 ， 使 用 选择 的 性 能 指标 对 预测 进行 评估 。 

4) 调整 数据 和 模型 ， 直 到 得 到 期 望 的 模型 性 能 。 在 第 5 ~8 章 ， 你 将 看 到 各 种 各 样 的 方 

法 ， 在 实践 中 提高 模型 性 能 。 

e 对 于 分 类 模型 ， 我 们 介绍 了 一 些 性 能 评价 指标 ， 用 于 机 融 学 习 流 程 的 第 3 步 中 。 这 些 
技术 包括 : 简单 准确 度 统计 (simple counting accuracy) ， 混 清和 矩阵 (confusion ma- 
trix) ， 接 收 者 操作 特性 曲线 (ROC 曲线 ) 和 ROC 线 下 面积 (AUC ) 。 

e 对 于 回归 模型 ， 我 们 介绍 了 均 方 根 误差 和 及 平方 估计 。 简 单 的 可 视 化 方法 ， 如 预测 值 
对 实际 值 的 散 点 图 (scatter plot) 和 残 差 图 (residual plot) 都 是 很 有 用 的 。 

e 有 关 模 型 调整 参数 的 优化 ， 可 使 用 网 格 搜索 算法 。 
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4.6 本章 术语 


本 章 术 语 见 表 4-1。 























表 4-1 本 章 术 语 
术 请 定义 
欠 拟 合 /过 度 拟 合 0 
Cunderhitlne overdtihay 对 于 要 解决 的 问题 使 用 的 模型 过 于 简单 或 过 于 复杂 
评 虽 标 He A ye 
Mai 表征 模型 性 能 的 一 个 数值 
(evaluation metric) 


( mean squared error) 





回归 模型 的 特定 评估 指标 


—_ 
一 一 
| 
上 

















0 为 了 更 好 地 估计 准确 性 ， 把 训练 集 分 成 训练/ 测试 集 的 方法 
保持 法 在 模型 拟 合 过 程 中 ， 只 保留 单个 测试 集 ， 用 于 测试 目的 的 交叉 验证 的 一 种 


(holdout method ) 





形式 








K - 折 交 义 验证 


(上 k — fold cross - validation ) 


交叉 验证 的 一 种 ， 将 数据 随机 分 成 个 互 不 相交 的 子 自 











Ci 


保留 一 个 包 ， 对 余下 的 包 构 建 的 模型 进行 交叉 验证 











( 称 为 包 ) 。 一 次 





混淆 矩阵 


(confusion matrix ) 


显示 每 个 分 类 预测 值 是 否 正确 的 矩阵 




































































接收 者 操作 特性 代表 真正 (true positives ) ， 假 正 (false positives) ， 真 负 (true negatives ) 
(ROC) 或 假 负 (false negatives) 的 一 个 数值 
ROC 线 下 面积 (AUC) 分 类 任务 的 评价 指标 ， 指 的 是 假 正 和 真正 的 ROC 曲线 的 线 下 面积 
8 机 器 学 习 算法 的 内 部 参数 ， 如 核 平滑 回归 的 带宽 参数 
网 格 搜索 


(grid search ) 





选择 调整 参数 最 优 值 优 化 机 器 学 习 模 型 的 一 种 强 有 力 策略 





在 下 一 章 ， 你 将 开始 聚焦 于 模型 特征 ， 以 提高 其 性 能 。 除 基本 特征 工程 技术 外 ， 你 将 学 
习 从 文本 、 图 片 和 时 间 序 列 数据 中 提取 信息 的 高 级 方法 ， 还 将 学 习 如 何 选择 最 佳 特征 来 优化 


模型 性 能 ， 并 避免 过 度 拟 合 。 
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第 $ 草 
基础 特征 工程 


本 章 导 读 

e@ 理解 机 器 学 习 项 目的 特征 工程 的 重要 性 。 

@ 使 用 基本 特征 工程 ， 包 括 处 理 日 期 和 时 间 ， 还 有 简单 文本 。 
@ 选择 优化 特征 ,减少 模型 的 统计 和 计算 的 复杂 性 。 

@ 在 构建 模型 和 预测 时 使 用 特征 工程 。 





前 4 章 已 经 学 习 了 给 定 输入 特征 集 和 感 兴趣 的 目标 变量 ， 如 何 拟 合 、 评 估 和 优化 有 监督 
机 器 学 习 算法 。 但 这 些 输入 特征 来 自 哪 里 ? 如 何 定义 和 计算 特征 ?从 业者 如 何 知道 ， 对 于 他 




















们 的 问题 ， 是 否 使 用 了 正确 的 特征 集 ? 





5.1 动机 : 为 什么 特征 工程 很 有 用 


本 章 探索 如 何 从 原始 输入 数据 创建 特征 ， 这 一 过 程 称 作 特征 工程 (feature engineering ) ， 








并 介绍 一 些 简单 特征 工程 的 例子 ， 为 第 7 章 中 更 复杂 的 特征 工程 算法 打 好 基础 。 
5.1.1 什么 是 特征 工程 
特征 工程 就 是 用 数学 转换 的 方法 将 原始 输入 数据 转换 为 用 于 机 器 学 习 模 型 的 新 特 生 




















下 是 这 种 转换 的 一 些 例子 : 
。 美元 总 数 除 以 支付 笔 数 ， 得 到 每 笔 支付 的 平均 钱 数 。 
。 统计 文本 文档 中 特定 单词 出 现 的 次 数 。 








E。 以 


e 计算 机 用 户 执行 ping 命令 的 时 间 统 计 汇 总 (如 使 用 平均 值 、 中 位 数 、 标 准 差 和 偏 





差 ) ， 以 评估 网 络 健康 状况 。 
e 以 用 户 ID 连接 两 个 表 (如 支付 表 和 支持 表 )。 
e 对 图 像 应 用 复杂 的 信号 处 理工 具 并 汇总 它们 的 输出 (如 梯度 直方 图 ) 。 














在 深入 演示 特征 工程 的 实战 例子 之 前 ， 先 让 我 们 考虑 一 个 简单 的 问题 : 为 什么 使 用 特征 
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工程 ? 
5.1.2 使 用 特征 工程 的 5 个 原因 


本 节 介 绍 了 机 融 学 习 应 用 中 ， 特 征 工程 有 用 的 儿 个 方面 。 列 举 的 并 不 全 面 ， 只 是 介绍 了 
特征 工程 提高 机 器 学 习 模型 的 准确 度 和 计算 效率 的 几 个 主要 方面 。 

把 原始 数据 转换 成 与 目标 相关 的 数据 

你 可 以 使 用 特征 工程 对 原始 数据 进行 转换 ， 使 其 更 接近 目标 变量 。 例 如 ， 对 于 个 人 财政 
数据 集 ， 包 含 当前 账户 余额 和 每 位 顾客 的 信用 额度 。 如 果 你 构建 模型 预测 ， 每 个 客户 3 个 月 
后 是 否 拖欠 支付 (还 款 ) ， 那 么 转换 后 的 特征 
































Ratio of debt -to -balance =amount of debt /amount of balance 

(负债 比率 = 负债 金额 账户 余额) 

对 目标 更 具有 预测 性 。 

在 这 种 情况 下 ， 虽 然 未 加 工 的 输入 出 现在 原始 数据 集中 ， 但 如 果 将 转换 后 的 特征 作为 输 
入 ， 则 机 器 学 习 模 型 更 容易 发 现 负 债 比率 与 将 来 拖欠 的 关系 ， 这 将 提高 预测 的 准确 性 。 

引入 额外 的 数据 源 

特征 工程 可 使 从 业者 向 机 器 学 习 模 型 引入 额外 的 数据 源 。 想 象 一 下 ， 你 正在 提供 互联 网 
订阅 服务 。 对 于 首次 注册 的 用 户 ， 你 想 预 测 该 客户 的 终生 价值 。 在 众多 指标 中 ， 你 可 以 捕捉 
每 个 用 户 的 地 理 位 置 。 虽 然 这 个 数据 可 以 直接 作为 分 类 特征 (例如 ，IP 地 址 或 邮政 编码 ) 
提供 ,但 模型 基于 这 些 (在 这 里 ， 指 的 是 一 个 地 区 的 平均 收入 ， 还 是 城市 和 农村 ) 来 确定 
位 置信 息 仍 有 困难 。 
通过 引入 第 三 方 的 人 口 统计 数据 ， 你 可 以 做 得 更 好 。 例 如 ， 这 将 允许 你 计算 每 个 用 户 区 
域 的 平均 收入 和 人 口 密度 ， 并 把 这 些 因素 直接 插 和 人 到 训练 集中 。 现 在 ， 这 些 预 测 性 因素 立即 
变 得 更 容易 推断 ， 而 不 是 依赖 模型 从 原始 位 置 数据 推 断 这 种 微妙 的 关系 。 更 进一步 地 ， 位 置 
信息 转换 成 收入 和 人 口 密 度 的 特征 工程 ， 可 使 你 佑 计 这 些 位 置 衍生 出 的 特征 哪 一 个 更 为 
重要 。 

使 用 非 结 构 化 的 数据 源 

寺 征 工程 可 使 你 在 机 器 学 习 模 型 中 使 用 非 结构 化 的 数据 源 。 许 多 数据 源 本 质 上 并 不 是 绪 
构 化 的 特征 向 量 ， 可 以 直接 搬入 到 前 4 章 出 现 的 机 器 学 习 框 架 中 。 非 结构 化 数据 ， 如 文本 、 
时 间 序 列 、 图 像 、 视 频 、 日 志 数 据 和 点 击 流 等 ， 占 创建 数据 的 绝 大 多 数 。 特 征 工程 使 从 业者 
从 上 述 原始 数据 流 中 产生 机 顺 学 习 的 特征 向 量 。 

本 章 只 介绍 了 相对 简单 的 文本 数据 的 特征 工程 。 后 续 章 节 将 介绍 最 常用 的 文本 、 图 像 和 
时 间 序 列 数据 的 特征 工程 。 

创建 更 容易 解释 的 特征 

寺 征 工程 使 机 器 学 习 的 从 业者 能 够 创建 更 易于 解释 和 实用 的 特征 。 通 常 ， 使 用 机 器 学 习 
发 现 数据 中 的 模式 ， 对 于 产生 精确 的 预测 十 分 有 用 ， 但 会 遇 到 模型 的 可 解释 性 和 模型 的 最 终 
应 用 的 一 些 限制 。 这 些 情况 下 ， 在 驱动 数据 生成 、 链 接 原始 数据 和 目标 变量 的 过 程 中 ， 产 生 
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更 有 指示 性 的 新 特征 ， 这 样 更 有 价值 。 

考虑 一 个 简单 的 生产 计算 机 硬件 的 机 器 的 例子 。 你 可 以 使 用 原始 的 机 器 数据 ， 如 测量 响 
应 信号 和 其 他 处 理 信和 号， 来 构建 模型 以 预测 零件 次 品 率 。 但 自 上 次 机 器 调整 的 正常 工作 时 间 
和 硬件 产量 ， 可 从 另 一 视角 洞察 生产 过 程 。 

用 大 特征 集 提 高 创造 性 

特征 工程 使 得 你 可 以 扔 进 大 量 的 特征 ， 观 察 它 们 代表 了 什么 。 你 能 创建 尽 可 能 多 的 数 
据 ， 观 察 在 训练 模型 中 哪些 更 具有 预测 力 。 这 使 得 机 器 学 习 的 从 业者 在 创建 和 测试 特征 时 摆 
脱 僵化 心理 ， 并 能 够 发 现 新 的 趋势 和 模式 。 

虽然 当 几 十 个 甚至 上 百 个 特征 用 于 训练 机 器 学 习 模 型 时 ， 过 度 拟 合成 为 一 个 问题 ， 但 严 
谨 的 特征 选择 算法 ， 可 减少 特征 使 其 易于 管理 。 例 如 ， 你 可 以 自主 决定 前 10 个 特征 的 预测 ， 
与 所 有 1000 个 特征 的 预测 是 一 样 好 ， 还 是 优 于 后 者 。 我 们 在 本 章 稍 后 介绍 这 些 算法 ， 参 见 
5.3 节 。 


5.1.3 特征 工程 与 领域 专业 知识 


男 一 种 概念 化 特征 工程 是 一 种 机 制 ， 是 一 种 将 领域 专业 知识 应 用 于 机 带 学 习 模 型 的 机 
制 。 这 句 话 的 意思 很 简单 ， 对 于 手 涉 上 的 任何 问题 ， 对 于 数据 和 系统 研究 的 知识 是 随 着 时 间 
的 推移 而 不 断 积累 的 。 对 于 某 些 问题 ， 这 些 模 式 是 非常 直接 的 ， 很 容易 被 机 器 学 习 模 型 学 
习 。 但 对 于 更 具 挑 战 性 的 问题 ， 机 器 学 习 模 型 在 将 领域 专业 知识 转换 成 特征 集 的 过 程 中 ， 要 
不 断 地 提高 ， 这 一 点 是 十 分 重要 的 。 下 面 是 一 些 例 子 ， 这 些 专业 领域 的 陈述 可 以 很 容易 地 编 
码 成 机 器 学 习 的 特征 : 

。 网 络 转换 总 是 在 周二 比较 高 (包含 布尔 型 特征 “是 不 是 周二 ?”) 。 

。 家 庭 用 电 随 着 温度 的 升 高 而 增加 (温度 可 以 作为 特征 ) 。 

e 垃圾 邮件 典型 地 来 自 于 自由 邮件 账户 (设计 布尔 型 特征 “是 否 来 自 自 由 邮件 账户 ” 

或 某 个 邮件 领域 ) 。 

。 最 近 开通 信用 卡 的 贷款 申请 人 更 容易 拖欠 (使 用 “信用 卡 开 卡 天 数 ” 作 为 特征 ) 。 

。 在 其 他 人 更 换 网 络 提 供 商 后 ， 顾 客 也 会 更 换 他 们 的 移动 服务 商 (设计 特征 统计 近期 将 
更 换 网 络 提 供 商 的 人 数 ) 。 

很 明显 ， 上 面 的 列举 可 以 无 休止 地 继续 下 去 。 事 实 上 ， 许 多 公司 的 标准 操作 过 程 就 是 利 
用 这 些 长 长 的 临时 规则 进行 决策 和 预测 。 这 些 商业 规则 ， 是 构建 机 器 学 习 模 型 和 设计 特征 的 
完美 集合 ! 

转换 一 下 看 法 ， 特 征 工程 可 以 作为 测试 领域 专家 先 人 为 主 的 观念 的 一 种 方式 。 如 果 可 以 
确定 一 个 特定 的 假设 具有 某 些 优点 ， 它 就 可 以 被 编码 用 于 机 器 学 习 模型 的 特征 。 然 后 ， 机 器 
学 习 模 型 的 准确 性 可 以 使 用 /不 使 用 这 个 特征 进行 测试 ， 从 而 估计 这 个 特征 对 目标 变量 预测 
的 重要 性 。 如 果 准 确 性 的 增益 可 以 忽略 不 计 ， 则 证 明了 这 个 想法 缺乏 附加 值 。 

下 面 我 们 通过 几 个 简单 特征 工程 的 例子 ， 演 示 这 些 处 理 过 程 是 如 何在 实际 中 应 用 的 。 我 
们 介绍 特征 工程 如 何 适 合 整 个 机 器 学习 流程 ， 以 及 如 何 通 过 某 些 直接 的 特征 工程 过 程 来 提高 
机 需 学 习 模 型 的 预测 准确 性 。 
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5.2 基本 特征 工程 过 程 





在 深入 研究 我 们 的 例子 之 前 ， 先 重 温 一 下 基本 的 机 融 学 习 流 程 ， 观 察 特征 工程 是 如 何 扩 
展 截止 到 目前 你 的 所 见 所 闻 的 。 图 5-1 所 示 显 示 了 这 一 流程 。 




















模型 构建 
模型 评估 











图 5-1 特征 工程 如 何 适 应 机 器 学 习 基 本 流程 。 在 建 模 之 前 扩展 了 训练 数据 的 特征 。 
在 预测 阶段 ， 需 要 对 新 数据 进行 同样 的 特征 工程 处 理 ， 以 使 预测 结果 有 意义 




















寺 征 工程 扩展 后 的 流程 允许 你 扩充 训练 数据 ， 以 提高 机 器 学 习 算法 的 准确 性 。 为 了 保证 
恰当 地 应 用 特征 工程 ， 需 要 对 预测 数据 进行 与 训练 数据 同样 的 工程 处 理 。 这 可 以 保证 产生 的 
预测 与 训练 数据 应 用 的 处 理 过 程 是 相同 的 。 


5.2.1 实例 : 事件 推荐 


为 了 阐释 特征 工程 的 概念 ， 本 节 引 入 一 个 实际 例子 : 来 自 Kaggle (www. kaggle. com ) 
数据 科学 竞赛 的 一 个 挑战 实例 。 

假定 你 正在 运行 一 个 事件 推荐 网 站 ， 要 预测 某 特 定 用 户 对 某 个 事件 〈 例 如 ， 人 会议、 地 
福 时 光 或 演讲 ) 是 否 有 兴趣 。 你 有 一 系列 的 训练 数据 ， 包 括 哪个 用 户 对 过 去 的 哪个 事件 感 
兴趣 ， 以 及 客户 的 一 些 信息 和 事件 本 身 的 信息 。 你 的 目标 是 构建 机 器 学 习 模 型 ， 来 预测 某 个 
用 户 对 特定 的 事件 是 否 感 兴 二 进 制 分 类 模型 。 

关于 挑战 的 数据 和 信息 ， 注 册 后 (如果 没 有 注册 过 ) 可 以 在 www. kaggle. com/c/event - 
recommendation - engine - challenge 获得 。 基 础 数据 包括 train. csv、events. csv 和 users. csy 文 
件 ， 并 可 以 通过 用 户 和 事件 标识 连接 在 一 起 。 你 从 数据 集中 选择 明显 有 兴趣 或 无 兴趣 的 事 
件 ， 并 选择 基本 的 数值 和 类 别 特征 。 图 5-2 所 示 显 示 了 选择 的 初始 训练 集 。 
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目标 变量 分 类 变量 


interested | invited | birthyear | gender 
ET 
—480 


33.846 一 117.977 
420 —7.265 Th2743 
一 缺失 数据 
-480 Far | NaN | 





一 111.934 




















选择 数据 用 户 数 据 事件 数据 





图 5-2 训练 事件 推荐 模型 的 数据 样 例 
你 的 训练 数据 样本 包含 以 下 特征 : 


























e invited 一 一 布尔 型 ， 表 示 个 人 是 否 被 基 个 事件 所 邀请 。 
® birthyear 个 人 的 出 生年 份 。 

® gender 性 别 。 

® timezone 个 人 所 在 地 的 时 区 。 

® lat/lng 事件 的 经 纬度 。 











一 开始 ， 你 只 对 于 这 6 个 特征 构建 和 评估 模型 。 很 显然 ， 这 个 数据 集 被 限制 在 用 于 识别 
每 个 用 户 会 不 会 对 事件 感 兴趣 上 。 随 着 本 节 的 学 习 ， 你 将 使 用 一 些 直接 的 特征 工程 转换 来 扩 
充 特 征集 ， 并 添加 新 的 信息 。 

你 要 通过 6 个 输入 特征 构建 初始 二 进 制 分 类 模型 以 预测 目标 变量 interested。 按 照 第 1 ~ 
4 章 的 机 需 学 习 流 程 ， 步 又 如 下 : 

1) 初始 数据 处 理 〈 分 类 列 转换 成 数值 列 ， 缺 失 值 插 补 ) 。 

2) 模型 训练 〈 使 用 随机 森林 算法 ) 。 

3) 评估 模型 (使 用 10 - 折 交 叉 验 证 和 ROC 曲线 ) 。 图 5$-3 所 示 显 示 了 交叉 验证 的 ROC 
曲线 ，AUC 得 分 为 0. 81。 


5.2.2 处 理 日 期 和 时 间 特 征 


接 下 来 ， 你 要 使 用 特征 工程 改善 第 一 个 模型 。 除 图 5-2 所 示 的 数据 之 外 ， 每 个 事件 都 
有 一 个 start_time。 这 个 数据 是 ISO - 8601 字符 串 ， 表 示 事 件 安排 的 开始 时 间 。 数 据 的 格式 形 
如 2012 - 10 -02 15: 53: 05.754000 + 00: 00， 表 示 yyyy - mm - dd hh: mm : ss. mmmmmm 
+HH: MM 格式 。 

第 3 章 介 绍 的 机 器 学 习 模 型 可 以 支持 数值 型 或 分 类 类 型 的 输入 特征 ,但 datetime 哪个 也 
不 是 。 因 此 ， 你 不 能 直接 将 该 列 插入 到 模型 中 。 你 要 做 的 是 ， 把 datetime 转换 成 数值 型 的 特 
征 ， 并 包含 datetime 字符 串 的 信息 。 这 个 简单 但 强大 的 特征 工程 ， 可 使 你 把 每 个 datetime 字 
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图 5-3 简单 事件 推荐 模型 的 交叉 验证 ROC 曲线 和 AUC 指标 
符 串 转换 成 如 下 特征 : 

e 一 天 中 的 几 点 。 

。 一 周 中 第 几 天 。 

。 一 年 中 的 第 几 个 月 。 

e 一 小 时 中 的 第 几 分钟 。 

。 一 年 中 的 第 几 季 度 。 

把 单个 的 start_time 特征 转换 成 10 个 datetime 特征 ， 转 换 后 的 结果 如 图 5-4 所 示 ， 图 中 
示 了 前 5 行 数据 。 
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datetime_hout_of day | datetime_day_of week | datetime_day_of month | datetime_day_of year | datetime_month_of year 
13 4 26 300 10 
13 4 26 300 10 
13 4 26 300 10 
13 4 26 300 10 
13 4 26 300 10 














datetime_quarte_of_year 
4 
4 
4 


datetime_week_of_ year 
43 
43 












2012 
2012 


43 
43 





























图 5-4 事件 推荐 数据 中 ， 从 时 间 截 提取 的 附加 日 期 时 间 列 
下 一 步 你 将 在 这 个 16 特征 的 数据 集 上 构建 随机 森林 模型 。 我 们 的 交叉 验证 ROC 曲线 如 
网 5S-5 所 示 [e) 
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国 值 为 0.94 





线 下 面积 为 0.85 











假 正 率 
图 5-5 包含 日 期 时 间 特 征 的 模型 的 交叉 验证 ROC 曲线 
模型 的 AUC 从 0. 81 增加 到 了 0. 85。 很 明显 ， 在 start_time 信息 中 含有 隐藏 的 价值 ， 当 
通过 特征 工程 引入 到 机 器 学 习 模型 中 时 ， 可 帮助 提高 模型 的 准确 性 。 最 有 可 能 的 是 ， 发 生 在 
一 周 特定 几 天 的 和 一 天 特定 时 间 的 事件 ， 比 其 他 事件 更 受 欢 迎 。 


5.2.3 处 理 简单 文本 特征 


除 事件 的 时 间 属 性 外 ， 数 据 还 包括 简单 自然 语言 处 理 中 的 基本 文本 特征 。 和 datetime 特征 类 
似 ， 不 能 直接 用 于 模型 中 ， 因 为 它们 既 不 是 数值 型 的 ， 也 不 是 类 别 型 的 。 任 意 文 本 不 能 直接 用 于 
模型 算法 中 ， 除 非 把 它们 转换 成 算法 可 接收 的 两 种 类 型 。 把 文本 转换 成 机 需 学 习 的 特征 ， 需 用 到 
称 作词 袋 (bag of words) 的 方法 。 原 理 上 这 个 思想 很 简单 : 统计 文本 中 每 个 单词 出 现 的 次 数 ， 并 
在 数据 集中 搬入 一 列 记录 单词 和 出 现 的 次 数 。 但 总 的 来 说 ， 你 会 有 一 些 复杂 的 因素 要 处 理 。 

你 输入 到 机 需 学 习 算 法 中 的 特征 必须 是 同 质 的 : 对 于 数据 集中 的 所 有 实例 ， 特 征 数目 必须 相 
同 ， 且 必须 对 应 相同 的 底层 含义 。 例 如 ， 如 果 第 一 个 实例 中 单词 family 出 现 了 5 次 ， 而 第 二 个 实 
例 中 没有 单词 family ， 则 要 么 在 第 二 个 实例 中 包括 family 列 并 置 其 值 为 0， 要 么 两 个 实例 都 不 包含 
family。 通 常 你 要 处 理 整个 语料库 ， 以 确定 特征 应 包括 哪个 单词 、 不 应 包括 哪个 单词 。 在 大 多 数 
情况 下 ， 对 整个 数据 集 构 建 单词 包 ， 只 有 顶层 出 现 的 单词 才 作为 列 出 现在 数据 集中 。 对 于 剩 下 的 
单词 ， 可 以 创建 一 个 综合 列 ， 原 则 上 它 确定 了 除 选 中 的 上 层 单词 以 外 的 文本 长 度 。 

现在 ， 让 我 们 假定 你 选择 最 上 面 的 100 个 单词 ， 得 到 数据 集中 的 Counts (计数 ) 列 。 你 
会 得 到 一 系列 常用 但 没有 意义 的 词 的 计数 列 ， 如 is、and 和 the。 在 自然 语言 处 理 领域 ， 这 些 
词 称 为 终止 词 (stop words) ， 在 进行 词 袋 计数 之 前 将 它们 从 文本 中 清除 。 

我 们 会 在 下 一 章 介绍 更 高 级 的 文本 特征 技术 ， 但 在 这 里 要 提 到 的 复杂 的 因素 是 ， 词 袋 数 
据 集会 迅速 变 得 庞大 而 稀疏 。 我 们 得 到 许多 为 0 ( 零 ) 的 特征 ， 因 为 一 个 特定 的 单词 通常 不 
一 定 出 现在 随机 文档 中 。 英 文 词典 非常 庞大 (使 用 的 大 约 有 20 多 万 条 ) ， 但 只 有 一 少 部 分 
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习 


用 在 大 多 数 文档 中 。 有 些 机 融 学 习 问题 使 用 面 很 窗 ， 其 中 有 一 些 单词 比 常 用 的 单词 出 现 得 更 





为 频繁 。 例 如 ,图 5-6 示 出 了 事件 推荐 实例 中 使 用 最 多 的 单词 计数 特征 ， 稀 蚊 性 很 明显 。 





























有 些 机 融 学 习 算法 ， 如 杆 素 贝 叶 斯 算法 可 以 很 好 地 人 处 理 稀 足 数 据 (不 需要 额外 的 存储 空间 





存放 0 元素), 但 大 多 数 算法 则 不 能 。 











hl 


图 5-6 





有 件 推荐 实例 的 部 分 词 袋 数据 。 


这 些 数字 是 在 事件 描述 中 








单词 出 现 次 数 最 多 的 统计 。 由 于 大 多 数 单元 格 是 0， 因 此 我 们 说 数据 集 是 稀 玻 的 
事件 推荐 实例 的 events. csv 文件 中 ，100 个 特征 代表 出 现 频 度 最 高 的 前 100 个 单词 。 你 
要 在 模型 中 把 这 些 作为 特征 ， 因 为 有 些 事件 比 其 他 事件 易于 被 人 接受 。 图 5-7 所 示 显 示 了 








这 些 特 征 添加 到 模型 以 后 的 ROC 曲线 。 























国 值 为 0.94 
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率 线 下 面积 为 0.85 
0.4 上 
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图 5-7 包含 日 期 - 时 间 和 文本 特征 的 全 模型 交叉 验证 ROC 曲线 











图 5-7 中 的 AUC 指标 ， 与 前 面具 包括 基本 特 梨 








E 和 日 期 - 时 间 特 征 的 模型 并 没有 提高 ， 这 











说 明 对 于 特定 的 事件 ， 仅 依靠 事件 的 说 明 难 于 博得 客户 的 兴趣 。 








而 是 针对 一 般 的 客户 群 。 在 实用 推荐 引擎 中 ， 你 可 以 构建 针对 每 个 客户 或 每 类 客户 的 模型 。 推 
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这 个 模型 并 不 针对 个 人 客户 ， 








第 5 章 基础 特征 工程 
荐 引擎 的 其 他 常用 方法 是 使 用 事件 、 客 户 以 及 客户 -朋友 之 间 的 联系 来 寻找 推荐 事件 。 
5.3 特征 选择 





基本 统计 学 方法 与 人 的 模式 识别 能 力 相 比 ， 机 顺 学 习 算 法 一 个 主要 的 优点 是 具有 处 理 大 量 
特征 的 能 力 。 大 多 机 器 学 习 算法 能 够 处 理 数 以 生计 甚至 百 万 计 的 特征 。 通 常 增强 模型 准确 性 的 
有 用 策略 是 添加 更 多 的 特征 。 但 机 器 学 习 中 ， 在 许多 其 他 的 情况 下 ， 更 多 并 不 代表 更 好 。 

因为 更 多 的 特征 可 使 模型 学 习 从 特征 到 目标 映射 的 更 多 细节 ， 但 存在 模型 过 度 拟 合 数据 
的 风险 。 看 上 去 提高 了 训练 数据 的 准确 性 ， 但 可 能 损害 新 的 、 未 见 过 的 数据 的 预测 性 能 。 
图 5-8 示 出 了 过 度 拟 合 (我 们 在 第 3 章 首 次 讨论 过 度 拟 合 ) 的 例子 。 




















贺 形 新 数据 点 分 类 是 
“幸存 (实际 上 ) ] ; 
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5-8 ”两 个 模型 的 决策 边界 拟 合 相 同 的 训练 数据 。 图 a 中 的 模型 决策 边界 太 详细 ， 可 能 影响 新 数据 的 分 类 性 能 
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和 
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在 本 节 ， 你 会 看 于 


实用 机 器 学 习 





1 选择 特征 子 集 避 免 过 度 拟 合 ， 以 提高 模型 应 用 于 新 数据 的 准确 性 的 方 


法 。 有 些 算法 或 多 或 少 受到 过 度 拟 合 的 影响 ， 如 果 模 型 准确 度 特别 重要 ， 则 很 值得 花 些 气力 


进行 这 方面 的 优化 。 


特征 数 越 少 ， 模 型 就 越 小 ， 就 越 有 优势 ， 因 为 训练 和 预测 的 计算 量 与 特征 数 是 相关 的 。 
在 模型 开发 阶段 多 花费 点 时 间 ， 可 以 节约 再 训练 和 预测 的 时 间 。 
最 后 ， 特 征 选 择 和 相关 概念 特征 重要 度 (feature importance) ， 可 帮助 你 洞察 模型 和 用 于 








建 模 的 数据 。 在 有 些 情况 下 ， 建 模 的 目的 不 是 要 进行 预测 ， 而 是 观察 一 下 模型 的 重要 特征 。 




















你 可 以 利用 有 关 最 重要 的 特征 知识 去 发 现 一 些 模式 ， 如 信用 状况 与 一 定 的 人 口 统计 或 社会 因 


素 有 关 。 和 获取 特定 特 生 








F 的 数据 开销 是 可 以 的 ， 但 对 于 解决 问题 不 重要 的 特征 〈 的 这 种 开销 ) 








是 没 必 要 的 。 特 定 特 生 





F 的 重要 度 可 以 揭示 模型 预测 结果 中 有 价值 的 信息 。 在 很 多 实用 场合 ， 


理解 一 定 的 预测 是 如 何 得 到 的 ， 这 一 点 非常 重要 ， 而 不 仅仅 是 得 到 预测 结 
看 到 这 些 ， 你 应 该 受到 鼓舞 去 深入 学 习 特 征 选择 和 常用 的 方法 。 选 择 最 佳 特征 子 集 的 简 





单方 法 是 尝试 所 有 特 生 
对 模型 性 能 进行 测定 。 




















F 的 组 合 。 例 如 ， 对 所 有 的 特征 子 集 构建 一 个 模型 ， 并 用 第 4 章 的 知识 
但 非常 不 幸 ， 即 使 对 于 数目 较 小 的 特征 ， 这 个 方法 也 很 快 变 得 不 可 





行 。 你 必须 使 用 可 以 近似 最 佳 特征 子 集 的 技术 。 在 接 下 来 的 几 个 小 节 中 ， 你 将 学 习 一 些 这 样 
的 方法 。 最 常用 的 一 个 方法 是 前 向 选择 / 反 向 消除 ， 将 在 下 一 小 节 讲 解 。 本 章 稍 后 的 部 分 将 
介绍 其 他 的 启发 式 方法 。 


有 些 算法 内 置 了 特征 选择 
虽然 本 节 讨 论 的 方法 适用 于 任何 机 器 学 习 算法 ， 但 某 些 算法 在 特征 选择 领域 具有 优 


势 ， 因 为 它们 内 置 了 











相似 的 行为 。 然 而 在 所 有 的 情况 下 ， 这 些 内 置 方法 产生 的 结果 与 通 


用 方法 不 可 同日 而 语 ， 但 可 能 更 有 效率 。 所 以 ， 在 采用 计算 密集 的 常用 方法 之 前 先 试 一 


下 内 置 方法 是 很 有 用 


的 ， 或 者 把 内 置 方 法 作为 节约 常用 方法 计算 时 间 的 种 子 。 


内 置 特征 选择 方法 的 例子 是 线性 和 逻辑 回归 算法 的 特征 加 权 ， 决 策 树 的 特征 重要 度 
和 集成 变种 ， 如 随机 森林 。 如 果 一 个 特征 被 随机 嗓 声 苍 代 ， 那 么 这 些 方法 可 以 捕获 (以 
计算 密集 的 方式 ) 模型 预测 准确 度 的 下 降 程 度 。 我 们 可 以 观察 一 下 前 一 节 中 事件 推荐 随 
机 森林 模型 的 特征 重要 度 : 





特征 重要 度 


birthyear 


timezone 


datetime week_ of year 





datetime_day_of year 





lat 





datetime_hour of day 


lng 
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事件 推荐 模型 中 最 重要 的 随机 森林 的 7 个 特征 重要 这 种 测量 ， 客 户 的 出 生 





年 和 事件 的 时 间 段 ， 是 客户 对 事件 是 否 感 兴趣 的 重要 指 7 


5.3.1 前 向 选择 和 反 向 消除 


这 里 你 看 到 的 迭代 选择 法 是 允 近 最 佳 特征 子 集 的 应 用 最 广 的 方法 之 一 。 基 本 思想 是 从 没有 特 
征 开始 ， 逐 步 寻 找 最 好 的 特征 进行 添加 ， 或 者 从 所 有 特征 开始 逐步 删除 最 不 好 的 特征 。 当 全 部 特 
征 被 添加 或 被 移 除 时 ， 或 当 准 确 度 增加 趋 于 稳定 时 ， 或 当 特征 数目 到 达 设 定 值 时 ， 搜 索 停 止 。 

这 些 方法 分 别称 为 前 向 选择 (forward selection) 和 反 向 消除 (backward elimination ) 。 

们 不 能 保证 找到 最 佳 的 特征 子 集 ， 因 此 我 们 称 之 为 通 近 (approximation ) 。 = 
或 删除 的 特征 ， 与 某 特定 的 特征 子 集 搭配 可 能 更 有 预测 性 ， 但 当 这 个 特征 被 删除 时 还 没有 搜 
索 到 这 个 特定 的 子 集 。 记 住 ， 机 融 学 习 的 力量 来 日 于 通过 许多 特征 组 合 发 现 模式 的 能 力 。 换 
句 话 说 ， 一 个 弱 特 征 出 现在 恰当 的 特征 集中 ， 可 能 变 得 很 强 。 

在 实际 操作 中 ， 前 向 选择 或 反 向 消除 在 寻找 好 的 特征 子 集 时 工作 得 很 好 ， 而 且 比 彻底 搜索 
计算 的 复杂 度 要 低 。 a 这 种 方法 的 计算 量 较 大 。 在 这 些 情 况 下 ， 有 必要 依 
靠 内 置 的 特征 重要 性 度量 ,或 其 他 启发 式 搜索 方法 ,我 们 将 在 下 一 节 介 绍 

前 向 全 选取 过 程 如 图 5-9 所 示 。 根 据 特 征 的 数量 ， 需要 构建 许多 模型 。 如 果 算 法 执行 到 


， 你 需要 构建 N+(N-1) +(NW-2)+…+(NW-N+2)+(NW-N+1l)， 或 (N -站 个 可 
型 。 对 于 20，100，500 或 1000 个 特征 ， 就 分 别 需 要 构建 210，5050， 125250 和 500500 个 模型 
另外 ， 每 次 交 又 验证 需要 构建 有 个 模型 ， 因 此 如 果 构 建 模型 则 非常 耗 时 ， 这 将 变 得 不 可 控制 。 
对 于 较 小 的 特征 集 ， 或 者 需要 运行 的 循环 次 数 较 少 时 〈 例 如 ， 模 型 准确 性 增长 迅速 、 平 稳 ) ， 
这 个 方法 在 实用 中 还 是 很 有 效 的 。 










































































对 于 已 选择 的 特征 
选择 一 个 临时 特征 添加 ”构建 模型 并 进行 交 记录 交叉 验证 
到 已 选 特征 集中 又 验证 的 准确 性 









对 所 有 特征 重 








把 最 佳 模 型 的 特征 添加 到 
已 选 特征 集 ， 并 从 可 取 特 











征集 中 删除 。 重 复 执行 











图 5-9 前 向 特征 选取 过 程 。 从 最 左 侧 的 盒子 开始 ， 特 征 重 复 添 
加 ， 直 到 选 到 最 佳 特征 集 ， 以 交叉 验证 评价 指标 为 准 
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实用 机 器 学 习 








图 5-10 给 出 了 对 等 的 反 向 消除 过 程 。 计 算 量 与 前 向 选择 相同 ， 因 此 到 底 选 择 前 向 还 是 
反 向 ， 通 常 根 据 手头 的 问题 和 选择 的 算法 而 定 。 有 些 算法 ， 如 对 于 太 小 的 特征 集 表现 不 佳 ， 
在 这 种 情况 下 反 向 消除 是 较 好 的 选择 。 


选择 一 个 特征 ， 临 时 “对 模型 特征 进行 记录 交叉 验证 
从 模型 特征 中 删除 构建 并 进行 交叉 验证 的 准确 度 












































对 所 有 模型 特征 
重复 这 一 过 程 









已 删除 特征 








从 最 坏 模型 特征 中 删除 ， 
并 添加 到 已 删除 特征 集中 。 


重复 这 一 过 程 

















图 5-10 反 向 特征 消除 过 程 








对 于 和 迭代 特征 选择 过 程 ， 一 个 有 用 的 可 视 化 方法 是 画 出 执行 过 程 的 垂直 条 形 图 ， 如 图 5-11 
所 示 。 

















最 佳 准确 度 
和 迭代 4: 添加 特征 A 
和 迭代 3: 添加 特征 B 
迭代 2; 添加 特征 C 
和 迭代 1: 添加 特征 D 








0 1 
准确 度 


图 5-11 和 迭代 特征 选择 的 条 形 图 ， 显 示 了 特征 选择 过 程 中 准确 度 的 变化 过 
程 一 一 在 本 例 中 ， 是 前 向 选择 算法 。 任 何 对 于 问题 有 意义 的 准确 度 测量 〈 见 第 4 
章 ) 都 可 以 用 在 这 里 












































正如 我 们 前 面 所 讨论 的 ， 有 些 机 器 学 习 算法 内 置 特征 选择 方法 。 你 可 以 使 用 杂交 的 方 
法 ， 内 置 的 特征 重要 度 主 要 用 于 查找 前 向 选择 或 后 向 消除 过 程 中 每 次 迭代 的 最 好 或 最 坏 的 特 
征 ， 而 不 是 使 特征 选择 基于 内 置 的 特征 排名 。 当 特征 非常 多 时 ， 这 可 以 显著 地 降低 计算 时 
间 ， 但 可 能 会 产生 不 太 精 确 的 最 佳 特征 子 集 。 

5.3.2 数据 探索 的 特征 选择 


特征 选择 不 仅 用 于 避免 过 度 拟 合 或 使 模型 更 加 精简 ， 一 个 特征 选择 的 强大 功能 是 深入 了 
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而 不 是 进行 预测 。 


你 可 以 使 用 特 生 











可 以 了 解 最 重要 的 特征 ( 








第 5 章 基础 特征 工程 


解 模型 和 训练 数据 。 事 实 上 ， 有 些 情 况 下 你 构建 一 个 分 类 器 仅仅 是 为 了 执行 特征 选择 算法 ， 











F 选 择 来 执行 用 于 构建 模型 的 数据 的 探索 性 分 析 。 通 过 特征 选择 过 程 ， 你 

















集 ) 一 一 所 有 特征 中 对 于 目标 变量 预测 最 富 信 息 的 特征 的 集合 。 这 











就 告诉 你 关于 数据 的 某 些 东西 ， 这 些 东 西 是 十 分 有 用 的 。 假 定 你 的 任务 是 预测 一 个 病人 是 否 


患 了 癌症 。 因 为 你 也 不 确定 特定 瘤 证 的 发 病 机 理 ， 所 以 添加 手头 上 的 所 有 特征 ， 并 利用 特征 




















选择 找到 最 重要 的 特征 。 














你 不 仅 可 得 到 更 好 的 交叉 验证 的 准确 性 ， 而 且 使 用 的 数据 表明 哪些 








是 最 可 能 的 致 病因 素 ， 或 至 少 与 诊断 概率 有 关 。 讨 论 的 这 些 特征 选择 方法 不 会 告诉 你 特征 正 
负 取 向 〈 在 二 进 制 分 类 的 情况 下 ) 的 强 弱 ， 但 可 以 很 容易 地 通过 特定 特征 与 目标 变量 之 间 
的 可 视 化 关系 得 到 这 种 信息 (例如 ,使 用 2.3 节 中 介绍 的 可 视 化 方法 )。 


男 一 个 特 和 























FE 选择 的 无 监督 应 用 场合 就 是 降 维 ( dimensionality reduction ) 。 处 理 数据 的 一 


个 挑战 是 对 于 超过 3 个 变量 的 情况 ， 如 何 可 视 化 数据 。 人 脑 对 于 三 维 世界 已 经 非常 优化 ， 但 
我 们 耗费 大 量 的 时 间 也 不 一 定 能 掌握 其 精髓 。 在 实用 数据 处 理 中 ， 只 有 3 个 特征 几乎 是 不 可 
能 的 ， 因 此 你 需要 采用 各 种 技术 可 视 化 高 维 数据 。 你 可 以 把 特征 选择 作为 显示 机 器 学 习 算 法 
如 何 对 数据 进行 分 类 的 方法 ， 例 如 ， 简 单 地 画 出 2 ~ 3 个 特征 与 目标 变量 的 关系 图 ， 虽 然 模 
型 构建 中 使 用 了 更 多 的 特征 。 图 5-12 只 显示 了 二 维 决策 边界 的 例子 。 
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中 介绍 


图 5-12 这 个 决策 边界 只 把 目标 分 成 圆 形 和 萎 形 两 类 。 但 模型 构建 于 更 多 的 特征 ， 通 过 特征 选择 算 
法 ， 发 现 票 价 和 年 龄 特征 对 于 这 个 特定 问题 (泰坦 尼克 号 幸存 预测 ) 比较 重要 。 这 张 图 首先 在 第 3 章 

















在 下 一 节 ， 你 将 看 到 一 个 例子 ， 说 明 特 征 选 择 对 于 实际 问题 是 如 何 有 用 的 。 
5.3.3 实用 特征 选择 实例 


作为 特 和 





FE 工程 和 特 和 











FE 选 择 的 实用 例子 ， 让 我 们 看 一 个 来 自 科学 界 的 实例 。 
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你 的 任务 是 从 数量 巨大 的 天 文 图 像 中 找到 真正 的 超新星 事件 ， 其 中 有 大 量 的 所 谓 的 虚假 
事件 (事件 看 起 来 是 真实 的 ， 其 实 不 是 ) 。 图 5-13 显示 了 一 些 真 实 的 和 虚假 的 事件 例子 。 








图 5-13 ”真实 超新星 事件 显示 在 左 侧 ， 虚 假 事件 显示 在 右 侧 ” 。 分 类 器 的 任务 就 是 根据 图 片 中 提取 的 
特征 ， 学 习 这 两 种 备 选 事件 的 差别 〈 这 都 是 非常 明显 的 例子 ; 其 他 的 ， 即 使 是 经 验 丰富 的 人 也 难于 辨别 ) 


真实 /虚假 分 类 器 构建 ， 首 先 需 要 把 原始 的 图 片 数 据 处 理 成 一 系列 特征 ， 有 些 将 在 下 一 章 讨 
论 。 然 后 ， 将 特征 化 的 数据 通过 随机 森林 算法 构建 分 类 器 ， 再 进行 各 种 各 样 的 模型 优化 ， 正 
如 第 3 章 和 第 4 章 介 绍 的 一 样 。 最 后 一 步 ， 在 将 模型 应 用 到 天 文 望远镜 的 实时 流 之 前 ， 要 做 
的 是 决定 最 佳 的 特征 ( 集 ) ， 避 免 过 度 拟 合 ， 使 模型 足够 小 从 而 支持 项 目的 实时 性 要 求 。 特 
征 选择 图 ， 比 图 5$-11 所 示 的 版 本 稍 高 级 一 点 ， 如 图 5-14 所 示 。 

现在 已 经 知道 了 对 于 模型 哪些 特征 是 最 重要 的 ， 你 可 以 根据 真实 和 虚假 的 事件 对 这 些 特征 
绘制 可 视 化 图 形 ， 观 察 指定 特征 对 于 解决 问题 的 帮助 。 图 5-15 示 出 了 4 个 最 好 特征 的 性 能 。 
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名 本 节 出 现 的 超新星 图 片 和 数据 图 ， 最 先 出 现在 2013 年 的 
(http ://mnras. oxfordjournals. org/ content/435/2/1047 ) 。 
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四 随 着 删除 过 
[| 多 的 特征 ， 性 
ES 习 能 变 得 越发 
号 | 人 糟糕 


D 


加 国 国 晤 寺 ee 


一 回 虚 线 以 上 的 
所 有 特征 被 选 
1 入 了 最 终 模型 


@D 随 着 特征 的 

删除 性 能 提升 
( 越 小 越 好 ) ， 

然后 趋 于 稳定 








0.10 




















二 上 
0.15 0.20 0.25 0.30 0.35 
MDR at 1% FPR 





图 5-14 反 向 消除 过 程 的 特征 选择 图 。 随 着 模型 的 处 理 ， 自 底部 的 每 个 特征 被 选中 删除 ， 每 进行 一 步 
都 对 自 定义 评价 指标 1% 假 正 率 (FPR) 下 的 漏 测 率 (MDR) 进行 计算 。 每 一 步 删 除 特征 (以 交叉 验证 
的 标准 偏差 为 准 ) 后 的 性 能 指标 以 条 形 表 示 (在 本 例 中 越 小 越 好 ) 。 当 删除 23 个 特征 〈 共 44 个 ) 后 ， 

































































交叉 验证 性 能 趋 于 稳定 ， 并 且 删 除 更 多 的 特征 时 ， 交 义 验 证 性 能 变 得 更 糟 。 最 终 ， 通 过 消除 噪声 特征 得 
到 了 重要 的 5% 的 点 ， 提 高 了 模型 性 能 
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16 18 20 0 2 4 6 2.5 5.0 7.5 10.0 
gauss amp mag_ref flux_ratio ccid 
ma Real events = Bogus events 


图 5-15 由 我 们 的 特征 选择 算法 选中 的 4 个 独立 特征 的 可 视 化 性 能 。 当 选 定 特征 的 某 个 特定 值 时 ， 直 
方 图 给 出 了 真实 或 虚假 事件 的 数量 。 可 以 看 到 ，amp 和 flux_ratio 两 个 特征 的 真实 和 虚假 事件 分 布 是 不 
同 的， 它们 作为 我 们 的 特征 选择 过 程 中 表现 最 好 的 特征 




















5.4 总 结 


本 章 介绍 了 特征 工程 ， 把 原始 数据 进行 转换 从 而 提高 机 器 学 习 模型 的 准确 性 。 主 要 内 容 
如 下 : 

1) 特征 工程 是 对 原始 数据 进行 数学 转换 创造 机 器 学 习 模 型 的 新 特征 的 过 程 。 转 换 形 式 
从 简单 到 极度 复杂 的 都 有 。 

2) 由 于 以 下 5 种 原因 ， 特 征 工程 是 非常 有 价值 的 。 

。 它 可 以 创建 与 目标 变量 更 相关 的 特征 。 

。 可 使 你 引入 外 部 的 数据 源 。 

。 允许 你 使 用 无 结构 的 数据 。 

。 可 使 你 创建 更 具 解 释 性 的 特征 。 

。 给 你 创建 大 量 特征 的 自由 ， 并 且 通 过 特征 选择 方法 选择 最 佳 特 征集 。 

3) 特征 工程 和 领域 知识 之 间 存 在 复杂 的 联系 。 

4) 特征 工程 适合 整体 机 器 学 习 流 程 的 两 处 地 方 ; 

。 在 拟 合 模型 之 前 ， 处 理 训练 集 。 

。 在 产生 预测 之 前 ， 处 理 预 测 数据 。 

5) 两 种 简单 的 特征 工程 可 用 于 事件 推荐 问题 : 

。 从 日 期 - 时 间 信 息 中 提取 特征 。 

。 处 理 自 然 语言 文本 的 特征 工程 。 

6) 特征 选择 是 一 个 严肃 的 过 程 ， 从 数据 集中 选取 最 具 预 测 性 的 特征 子 集 。 


5.5 本 章 术 语 


本 章 术 语 见 表 5-1。 
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第 5 章 基础 特征 工程 


表 5-1 本 章 术语 






















































































本 对 数据 进行 转换 以 提取 更 多 的 价值 ， 并 提升 机 器 学 习 模型 的 准确 度 

二 4 二 后 
从 大 数据 集中 选择 最 具 预 测 性 的 子 集 的 处 理 过 程 

前 向 选择 当前 活跃 特征 集 的 基础 上 ， 不 断 增加 特征 以 提高 模型 最 大 准确 度 的 一 种 特征 选择 
(forward selection ) 形式 

反 向 消除 在 当前 活跃 特征 集 的 基础 上 ， 不 断 删除 特征 以 降低 模型 最 大 准确 度 的 一 种 特征 选择 

(backward elimination ) 形式 

词 伐 

人 把 任意 文本 转换 成 数值 特征 供 机 器 学 习 算法 使 用 的 方法 











第 7 章 会 展开 论述 这 里 出 现 的 简单 特 生 





FE 工 程 方法 ， 因 此 你 可 以 执行 更 高 级 的 特征 工程 ， 
如 文本 、 图 片 和 时 序 序列 数据 。 在 第 6 章 ， 我 们 将 应 用 所 学 到 的 知识 解决 一 个 完整 的 实例 。 
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第 2 部 分 


实际 应 用 


在 第 2 部 分 中 ， 你 将 超越 基本 的 机 器 学 习 流 程 ， 学 习 从 文本 、 图 像 和 时 间 序 列 数 据 中 提 
取 特 征 ， 进 一 步 提 高 模型 的 准确 度 ， 并 改进 机 器 学 习 系 统 以 适应 大 规模 数据 。 另 外 ， 你 将 看 
到 3 个 完整 的 实例 章节 ， 见 证 每 一 部 分 的 实际 运用 。 

第 6 章 ， 我 们 的 第 一 个 完整 案例 ， 你 将 尝试 预测 NYC 出 租车 的 小 费 行 为 。 

第 7 章 ， 将 学 习 高 级 特征 工程 过 程 ， 允 许 你 提取 自然 语言 文本 、 图 像 和 时 间 序 列 数据 的 
价值 。 大 多 数 现代 机 器 学 习 模 型 和 人 工 智能 的 应 用 都 基于 这 些 技术 。 

第 8 章 ， 你 将 在 另 一 个 完整 的 案例 中 应 用 这 些 高 级 特征 工程 : 预测 在 线 电影 评论 的 
情感 。 

第 9 章 ， 将 学 习 机 器 学 习 系 统 规模 化 的 知识 ， 使 系统 适应 大 数据 处 理 ， 具 有 更 高 的 吞吐 
量 和 更 低 的 预测 延迟 。 这 些 都 是 许多 现代 机 器 学 习 系 统 部 署 的 重要 方面 。 

第 10 章 ， 你 将 学 习 完 整 的 建 模 案例 一 一 大 数据 处 理 ， 预 测 在 线 数字 显示 广告 的 单 击 
情况 。 


第 6 章 
案例 .: NYC 出 租车 数据 


本 章 导读 
@ 介绍 、 可 视 化 并 准备 一 个 现实 的 NYC 出 租车 旅程 的 数据 集 。 
e@ 构建 分 类 模型 以 预测 乘客 的 小 费 习惯 。 

@ 通过 调整 模型 参数 和 工程 特征 优化 机 器 学 习 模型 。 

@ 构建 并 优化 回归 模型 预测 小 费 数 额 。 

e@ 使 用 模型 获得 数据 和 其 描述 行为 的 深层 次 理解 。 


前 5 章 你 已 经 学 习 了 如 何 从 原始 的 、 凌 乱 的 数据 开始 构建 验证 模型 ， 并 通过 调整 参数 和 
捕获 问题 领域 知识 的 工程 特征 优化 模型 。 虽 然 我 们 在 前 面 的 章节 中 使 用 了 很 多 小 例子 来 支撑 
独立 章节 的 观点 ， 但 现在 到 了 你 利用 所 学 知识 解决 完整 实际 问题 的 时 候 了 。 这 是 致力 于 完整 
实用 案例 的 3 章 中 (还 有 第 8 章 和 第 10 章 ) 的 第 1 章 。 

本 章 的 第 1 部 分 ， 你 将 近 距 离 地 体验 数据 和 有 用 的 可 视 化 方法 ， 帮 助 你 更 好 地 理解 数据 
的 可 能 性 。 我 们 从 介绍 数据 准备 开始 ， 那 么 对 于 后 续 的 模型 实验 来 说 数据 就 准备 好 了 。 第 2 
部 分 ， 你 将 建立 分 类 模型 ， 并 通过 调整 参数 和 提取 新 的 特征 来 提升 模型 的 性 能 。 











6.1 数据 : NYC 出 租车 旅程 和 收费 信息 


随 着 公司 和 组 织 产生 的 数据 越 来 越 多 ， 近 年 来 产生 了 大 量 的 丰富 的 有 意义 的 数据 。 男 外 ， 
有 些 组 织 的 数据 开放 (open data) 理念 ， 使 得 任何 感 兴趣 的 第 三 方 都 可 以 传播 和 使 用 数据 。 

最 近 纽约 州 《 信 息 自 由 法 》(FOIL) 公开 了 2013 年 每 辆 出 租车 旅程 的 详细 数据 集 ” 。 
这 个 数据 集 收 集 了 每 辆 出 租车 各 式 各 样 的 信息 ， 包 括 乘 车 和 下 车 地 点 、 旅 程 的 时 间 和 时 长 、 
行驶 里 程 和 收费 金额 。 你 可 以 把 它 看 作 标准 的 现实 数据 ， 不 仅仅 是 因为 它 的 产生 方式 ， 而 是 











最 初 由 Chris Wong 在 博客 的 帖子 中 发 布 ( http://chriswhong. com/open - data/foil_nyc_taxi/ ) 。 


实用 机 器 学 习 


因为 它 本 身 的 凌乱 程度 : 有 缺失 数据 、 虚 假 记 录 、 不 重要 的 列 和 主观 偏差 等 。 

说 到 数据 ， 真 可 谓 很 多 ! 全 部 CSV 数据 超过 19 GB ， 超 过 了 绝 大 多 数 系统 的 机 央 学 习 实 现 的 
处 理 能 力 。 为 了 简单 起 见 ， 在 本 章 你 只 需要 使 用 数据 很 小 的 子 集 。 在 第 9 章 和 第 10 章 ， 你 将 学 习 
处 理 这 种 级 别 甚至 超过 这 种 级 别 数据 的 方法 ， 因 此 学 完 本 书 你 将 知道 如 何 分 析 这 19 GB 的 数据 。 

数据 可 以 在 www. andresmh. com/nyctaxitrips/ 下 载 ， 包 含 12 对 旅程 / 票 价 压缩 CSV 文件 。 
每 个 文件 包含 1400 万 条 记录 ， 旅 程 / 票 价 文件 是 逐 行 匹配 的 。 

你 将 遵循 我 们 的 基本 机 带 学 习 流 程 : 分 析 数 据 ， 提 取 特 征 ， 建 模 ， 评 价 ， 优 化 模型 和 新 
数据 预测 。 在 下 一 小 节 ， 通 过 第 2 章 介 绍 的 可 视 化 方法 分 析 数 据 。 


6.1.1 数据 可 视 化 


当 你 开始 解决 一 个 新 间 题 时 ， 第 一 步 要 做 的 就 是 获得 对 数据 集 的 理解 。 我 们 推荐 载 和 数据 
并 以 表格 的 形式 观察 。 在 本 章 ， 我 们 已 经 把 旅程 / 票 价 连接 成 了 一 个 单独 的 数据 集 。 图 6-1 所 
示 显 示 了 前 7 行 (图 中 实际 上 是 7 行 ) 数据 。 






































medallion 


图 6-1 NYC 出 租车 旅程 和 票 价 数据 记录 的 前 7 行 。 很 多 列 是 自 解 释 的 ， 
接 下 来 对 其 中 的 一 部 分 进行 详细 描述 
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图 6-1 NYC 出 租车 旅程 和 票 价 数据 记录 的 前 7 行 。 很 多 列 是 自 解释 的 ， 
但 我 们 会 在 接 下 来 的 行文 中 详细 描述 其 他 的 一 部 分 ( 续 ) 








medallion 和 hack_license 列 看 起 来 像 是 单独 的 ID ， 对 于 书面 记录 很 有 用 ， 但 从 机 器 学 习 
的 观点 来 看 ， 则 用 处 不 大 。 从 列 名 来 看 ， 其 中 有 些 列 看 是 类 别 型 数据 ， 如 vendor_id、rate_ 
code 、store_and_fwd_flag 和 payment_type。 对 于 个 别 分 类 变量 ,我 们 推荐 以 表格 形式 或 条 
图 形式 可 视 化 它们 的 分 布 。 图 6-2 所 示 给 出 了 这 些 列 的 条 形 分 布 图 。 


vendor_id rate_code 


Ww 


6 210 8 128 28 7 65 9 











对 数 坐 标 轴 
store_and_fwd_flag payment_type 


N Y CRD CSH NOC DIS UNK 


图 6-2 数据 集中 分 类 型 列 的 分 布 情况 
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接 下 来 ， 让 我 们 看 一 些 数据 集中 的 数值 型 数据 列 。 验 证 数据 之 间 的 相关 性 是 十 分 必要 
的 ， 如 旅程 时 长 与 旅程 距离 和 费用 之 间 的 相关 性 。 图 6-3 所 示 给 出 了 这 些 数据 的 散 点 图 。 
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图 6-3 旅程 时 长 和 旅程 距离 ， 旅 程 时 长 与 费用 (美元 ) 的 散 点 图 。 和 预期 的 一 样 ， 存 在 一 定 的 相关 性 ， 
但 离散 程度 有 点 高 。 存 在 一 些 不 太 符合 逻辑 的 集群 ， 如 零 时 间 旅 程 ， 甚 至 过 于 昂贵 的 旅程 ， 这 表明 可 能 是 
损坏 的 数据 条 目 


最 后 ， 在 图 6-4 中 你 可 以 看 出 乘 车 位 置 的 纬度 与 经 度 的 对 应 关系 ,定义 NYC 出 租车 旅 
程 地 图 。 这 个 分 布 较为 合理 ， 乘 车 最 多 的 位 置 在 曼哈顿 的 南部 ， 在 其 他 行政 区 的 也 较 多 ， 但 
令 人 吃 尺 的 是 在 东 河中 部 一 带 则 非常 少 ! 

有 了 这 些 对 数据 集 的 新 的 认识 ， 让 我 们 继续 假想 一 个 问题 ， 可 以 使 用 这 个 数据 集 通过 机 
器 学 习 的 方式 解决 。 
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第 6 章 案例 , NYC 出 租车 数据 


乘 车 位 置 的 经 度 








40.65 40.70 40.75 40.80 40.85 40.90 
乘 车 位 置 的 纬度 
图 6-4 ， 乘 车 位 置 的 经 度 与 纬度 关系 。 注 意 与 实际 地 图 相 比 ，X 轴 是 翻转 的 。 
可 以 看 出 ， 在 曼哈顿 乘 车 的 很 多 ， 离 市 中 心 越 远 ， 数 量 越 少 
6.1.2 定义 问题 并 准备 数据 

当 我 们 第 一 眼看 到 数据 时 ， 一 个 特殊 的 列 立 刻 引 起 了 我 们 的 注意 tip_amount。 这 个 列 
存储 了 每 次 乘 车 的 小 费 金额 的 信息 (以 美元 为 单位 ) 。 更 详细 地 理解 这 个 因素 对 于 任何 NYC 
出 租车 旅程 的 小 费 是 最 具 影 响 力 的 ， 这 一 点 很 重要 。 

到 了 最 后 ， 你 需要 构建 一 个 分 类 器 ， 使 用 这 些 全 部 旅程 信息 尝试 预测 乘客 是 否 会 给 司机 
to 你 可 以 预测 每 次 旅程 是 否 会 有 小 费 。 出 租车 司机 可 以 把 这 个 模型 安装 
到 移动 设备 上 ， 得 到 “无 小 费 ” 提 示 ， 并 及 时 改变 这 种 情况 。 当 你 在 等 待 App 安装 到 所 有 
人 可 以 使 用 模型 帮助 你 了 解 哪个 参数 对 于 预测 有 无 小 费 最 为 重要 ， 从 
而 在 宏观 上 提高 整体 小 费 水 平 。 图 6-5 所 示 显 示 了 所 有 出 租车 旅行 的 小 费 金 额 的 直方 图 。 
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EE e 一 一 
0 2 4 6 8 10 12 14 16 
小 费 金额 (美元 ) 


金额 分 布 图 。 大 约 一 半 的 旅程 产生 的 小 费 为 0 美元 ， 比 我 们 直觉 上 要 多 
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因此 我 们 的 模型 要 预测 的 是 哪个 旅程 会 没有 小 费 ， 哪 个 旅程 可 得 到 小 费 。 这 是 一 项 二 进 
制 分 类 的 任务 。 使 用 这 样 一 个 分 类 器 ， 你 可 以 做 如 下 工作 : 

。 帮助 出 租车 司机 预测 没有 小 费 的 情况 。 

e 理解 为 什么 会 出 现 这 种 情况 ， 使 用 数据 集 提 示 NYC 出 租车 市 场 的 背后 驱动 因素 (一 

语 双关 ) 。 

真实 的 故事 

在 你 开始 构建 模型 之 前 ， 我 们 要 告诉 你 首次 解决 问题 的 真实 故事 ， 那 真 的 是 超级 糟糕 ， 
只 是 我 们 假装 很 成 功 ， 是 那 种 失败 的 不 能 再 失败 的 失败 ， 以 及 我 们 如 何 改正 。 这 种 “弯路 ” 
在 实际 数据 工作 中 是 很 常见 的 ， 因 此 把 它 包 含 在 这 里 学 习 一 下 是 很 有 帮助 的 。 机 器 学 习 工 作 
最 重要 的 是 警惕 两 种 陷阱 : 太 好 而 不 真实 的 情况 和 没有 根据 的 〈 非 来 源 于 数据 的 ) 不 成 熟 
假设 。 

作为 机 器 学 习 的 一 条 总 体 原 则 ， 如 果 交 叉 验 证 的 准确 度 高 于 你 的 期 望 ， 那 很 有 可 能 是 你 
的 模型 某 些 地 方 出 现 了 异常 。 作 为 数据 科学 家 ， 现 实 世 界 总 会 想 办 法 给 你 制造 一 些 困难 。 在 
构建 有 小 费 / 无 小 费 的 分 类 模型 时 ， 我 们 很 快 得 到 了 较 高 的 交叉 验证 预测 准确 性 的 模型 。 对 
于 新 获得 的 数据 模型 性 能 如 此 之 好 ， 使 我 们 很 兴奋 ， 我 们 认为 可 行 ， 暂 时 忽略 了 模型 欺骗 的 
敖 告 。 一 朝 被 蛇 咬 的 事 我 们 见得 多 了 ， 过 于 乐观 的 结果 迫使 我 们 做 进一步 的 调查 。 

我 们 关心 的 一 个 问题 是 输入 特征 的 重要 度 (在 后 面 的 小 节 有 更 详细 的 论述 ) 。 在 这 个 例 
子 中 ， 有 一 个 特征 “支付 类 型 ”控制 着 模型 的 特征 重要 度 。 

从 我 们 自己 的 出 租车 经 验 来 看 ， 这 是 比较 有 意义 的 。 用 信用 卡 付款 (前 广场 时 代 ) 的 
乘客 付 小 费 的 概率 更 低 。 如 果 现 金 支付 ， 无 论 怎样 都 会 找 零 。 因 此 我 们 开始 对 信用 卡 而 不 是 
现金 付费 的 乘客 的 小 费 和 无 小 费 的 数目 进行 区 分 。 事 实证 明 数 以 百 万 计 的 用 信用 卡 付费 的 乘 
客 绝 大 多 数 (超过 95% ) 支付 小 费 。 

理论 上 就 是 这 样 了 。 那 么 ， 到 底 多 少 人 信用 卡 支付 小 费 呢 ? 所 有 的 人 吗 ? 

事实 上 ， 现 金 付费 的 乘客 一 个 也 没有 给 小 费 的 ! 这 立即 变 得 很 明显 了 。 当 乘客 现金 付费 
也 给 了 小 费时 ， 司 机 并 没有 记录 的 必要 ， 作 为 我 们 数据 的 一 部 分 。 通 过 我 们 机 器 学 习 精 确 的 
分 析 ， 我 们 发 现 ,在 NYC 出 租车 系统 中 存在 数 以 百 万 计 的 虚假 记录 ! 

让 我 们 回 到 对 机 器 学 习 模 型 的 影响 上 : 在 这 种 情况 下 ， 当 数据 产生 时 存在 问题 ， 就 不 能 
简单 地 相信 这 些 数据 ， 并 用 于 机 器 学 习 建 模 。 在 不 正常 的 方式 下 ， 如 果 结 果 是 不 正确 的 ， 那 
么 机 器 学 习 模 型 学 习 的 就 有 可 能 全 是 错误 的 ， 是 与 现实 分 离 的 。 

最 终 ， 我 们 为 了 回避 问题 ， 采 取 删 除数 据 集 中 所 有 现金 支付 的 旅程 。 这 就 更 改 了 我 们 的 
目标 : 只 对 非 现金 支付 的 乘客 预测 是 否 支 付 小 费 。 仿 弃 数 据 总 是 让 人 感觉 不 太 对 劲 ， 但 在 本 
例 中 ， 在 新 数据 假设 的 支持 下 ， 所 有 现金 付费 的 数据 均 不 可 信 ， 最 好 的 选择 是 使 用 非 现 金 数 
据 回 答 稍 微 不 同 的 问题 。 当 然 ， 这 也 不 能 保证 其 他 小 费 记录 也 是 错 的 ， 但 我 们 至 少 可 以 检测 
小 费 数额 的 新 的 分 布 。 图 6-6 所 示 给 出 了 滤 除 任何 现金 支付 的 旅程 后 的 直方 图 。 

排除 了 不 良 数据 ， 分 布 比 以 前 好 看 了 些 。 只 有 5% 的 旅程 没有 小 费 。 下 一 节 我 们 的 任务 
是 找 出 这 是 为 什么 。 
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第 6 章 案例 : NYC 出 租车 数据 


务 江 








0 2 4 6 8 10 12 14 16 
小 费 金额 (美元) 


图 6-6 忽略 现金 支付 后 的 小 费 金额 分 布 图 (因为 发 现 现金 小 费 在 系统 中 没有 任何 记录 ) 











6.2 建 模 


建 模 数据 准备 好 后 ， 你 可 以 很 容易 地 利用 第 3 章 的 知识 建立 模型 并 进行 评价 。 在 下 面 的 
小 节 中 ， 你 将 建立 各 种 不 同 的 模型 ， 尝 试 在 每 次 迁 代 中 提升 模型 的 性 能 


6.2.1 基本 线性 模型 


你 将 尽 可 能 简单 地 开始 你 的 建 模 之 旅 。 你 将 使 用 简单 的 逻辑 回归 算法 。 一 开始 你 可 以 限 
制 只 使 用 数据 集中 的 数值 型 数据 ， 因 为 逻辑 回归 模型 可 以 很 自然 地 处 理 它们 ， 而 不 需要 任何 
数据 预 处 理 。 

你 将 使 用 Python 的 scikit - learn 和 pandas 库 开 发 模型 。 在 建 模 之 前 ， 我 们 把 数据 实例 进 
行 随机 洗 牌 ， 并 划分 成 80% 的 训练 数据 和 20% 的 测试 数据 ， 还 需要 对 数据 的 度量 单位 进行 
处 理 ， 以 使 数据 的 优先 级 不 会 出 现 问题 。 如 果 数 据 已 经 载 人 了 pandas 的 DataFrame ， 那 么 构 
建 和 验证 模型 的 代码 见 清 单 6-1。 

清单 6-1 逻辑 回归 小 费 预测 模型 


from sklearn.preprocessing import StandardScaler 


oO 


from sklearn.linear model import SGDClassifier 
from sklearn.metrics import roc curve, roc auc _ score 


frompylab import * 


sc=StandardScaler () 


把 数据 转换 到 -1 一 ! 之 间 


Qata_scaledq =sc.fit _ transform (aata [feats 


sgd =SGDClassifier(loss = "modified huber") 
使 用 loss 函 数 
处 理 极端 值 























sgd.fit( 
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实用 机 器 学 习 


在 训练 特征 和 
目标 数据 上 
data[l 'tipped'].ix[train_igdx] | 拟 合 分 类 器 








data.ix[train idx,feats], 


) 


preds =sgd.predict _ probal 在 保留 的 测试 
data. ix[test_idx,feats] | 集 上 进行 预测 


) 


fpr, tpr, thr =roc curvel 
datal[l'tipped'].ix[test_idx], 
preds[:,1] 计算 ROC 曲 线 

) 和 AUC 统 计 

auc =roc_auc_score (data[ 'tipped'].ix[test_idx], preds[:,1]) 

plot (fpr ,tpr) 

SloOttfror fe 

xlabel ("False positive rate") 绘制 ROC 曲 线 


ylabel ("True positive rate") 


清单 6-1 的 最 后 部 分 绘制 了 第 一 个 简单 分 类 需 的 ROC 曲线 。 保 留 集 的 ROC 曲线 如 图 6-7 
所 示 。 






曲线 ”一 随机 曲线 





0.6r 





其 性 六 


积 (AUC) 为 0.51 














0.4 


0.2 








0.0 0.2 0.4 0.6 0.8 1.0 
假 正 率 


图 6-7 ”有 小 费 /无 小 费 的 逻辑 回归 分 类 器 的 ROC 曲线 。 线 下 面积 (AUC) 只 有 0. 51， 
比 随 机 猜测 好 不 到 哪里 去 ， 这 对 于 我 们 的 模型 不 是 个 好 现象 





























关于 这 个 问题 没有 办 法 : 分 类 器 的 性 能 不 好 ! 保留 集 的 AUC 只 有 0. 51， 模 型 不 比 随机 
猜测 好 〈 抛 掷 一 枚 硬币 ，95% 为 “有 小 费 ”，5% 为 “无 小 费 ”， 这 样 对 每 个 旅程 进行 预 
测 ) ， 原 因 很 明显 ， 但 没有 用 。 幸 运 的 是 ， 我 们 从 简单 的 开始 ， 并 且 有 些 方法 尝试 提升 该 模 
型 的 性 能 。 
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6.2.2 非 线 性 分 类 器 
你 要 尝试 的 第 一 个 方法 是 选用 不 同 的 算法 一 一 非 线 





性 算法 。 考 虑 到 第 一 次 尝试 的 失败 ， 





好 像 线性 模型 不 能 搞定 这 个 数据 集 ， 简 单 地 说 ， 小 费 是 一 个 复杂 的 过 程 ! 相反 ， 你 将 使 用 称 





作 随 机 森林 (random forest) 的 非 线 性 算法 ， 以 它 实际 应 用 的 高 准确 度 而 著称 。 当 然 也 可 以 





选择 其 他 的 算法 〈 见 附录 ) ， 但 我 们 把 这 个 不 同 算法 的 
清单 6-2 是 构建 模型 的 代码 〈 和 前 一 个 模型 有 关 ) 。 
清单 6-2 随机 森林 小 费 预 测 模型 


from sklearn.ensemble import RandomForestClass 


评价 和 比较 的 任务 留 给 ， 当 作 练 习 。 


并 于 个 至 


from sklearn.metrics import roc curve, roc auc score 


frompylab import * 


rf =RandomrForestClassifier(n estimators =100) 


rf.fit(data.ix[train idx,feats], datal'tipped'].ix[train_ idx]) 


preds =rf.predict proba (data. ix[test_ idx,feats]) 


fpr, tpr, thr =roc_ curve (datal[l'tipped'].ix[test_idx], preds[:,1]) 


auc =roc_auc_score(datal'tipped'].ix[test_idx], preds[:,1]) 


plot (fpr,tpr) 
plot (fpr, fpr) 绘制 ROC 曲 线 


xlabel ("False positive rate") 


ylabel ("True positive rate") 


fi=zipl(feats, rf.feature importances. ) 
fi.sort (key =lambda x: -x[1]) 特征 重要 度 
fi=pandas.DataFrame (fi, columns = ["Feature","Importance"]) 











清单 6-2 代码 的 运行 结果 如 图 6-8 所 示 。 可 以 看 出 保留 集 的 准确 度 有 了 明显 的 提高 ， 
保留 集 AUC 现在 为 0.64， 清 楚 地 表明 了 数据 集中 存在 预测 性 信号 。 某 些 输 入 特征 的 组 合 可 
以 预测 出 租 旅行 可 否 从 乘客 那里 得 到 小 费 。 如 果 你 足够 幸运 ， 进 一 步 的 特征 工程 和 优化 将 进 


一 步 提 高 模型 的 准确 性 水 平 。 

















通过 这 个 适度 预测 模型 ， 你 可 以 深入 了 解 哪些 特 和 和 
的 ， 有 以 下 两 个 原因 ， 
。 它 可 以 使 你 识别 任何 欺骗 特 


问题 。 














合 




















FE 是 最 重要 的 。 这 个 练习 是 十 分 必要 


正 〈 例 如 ， 非 现金 支付 的 乘客 ) ， 并 深入 理解 任何 精华 








。 作为 进一步 特征 工程 的 起 点 。 例 如 ， 如 果 你 认为 经 度 / 纬 度 是 最 重要 的 特征 ， 那 么 可 
以 考虑 从 这 个 指标 衍生 其 他 的 特征 ， 如 与 时 代 广 场 的 距离 。 相 似 地 ， 如 果 你 认为 某 个 
特征 特别 重要 ,但 没有 出 现在 最 重要 的 特殊 列表 中 ， 那 么 你 就 要 对 其 进行 分 析 、 可 视 








化 、 洪 在 清理 或 进行 转换 处 理 。 
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0.8 






线 下 面积 (AUC) 为 0.64 
0.2 








假 正 率 


图 6-8 非 线 性 随机 森林 模型 的 ROC 曲线 。AUC 明显 变 好 ， 为 
0. 64， 这 说 明 在 数据 集中 可 能 存在 真实 的 信号 



































它们 对 于 随机 森林 模型 的 相对 重要 度 。 从 图 中 可 以 看 出 ， 位 置 














图 6-9 (由 清单 6-2 的 代码 产生 ) 所 示 显 示 了 特征 列表 和 国 国 2 


特征 是 最 重要 的 ， 还 有 时 间 、 旅 行距 离 和 票 价 金额 。 举 例 来 说 ， | 


可 能 是 由 于 城市 中 某 个 地 区 的 乘客 对 于 缓慢 、 昂 贵 的 行程 缺乏 

耐心 。 你 将 在 6 2 5 节 近 距 离 观 察 获得 的 潜在 见解 。 pickup longitude 
现在 你 已 经 选 定 了 算法 ， 让 我 们 确信 你 要 使 用 全 部 的 ”|4 

原始 特征 ， 包 含 分 类 特征 ， 而 不 仅仅 是 普通 的 数值 特征 。 ”上 











fare_amount 


6.2.3 包含 分 类 特征 7 
在 没有 深入 特征 工程 领域 之 前 ， 你 可 以 进行 一 些 简单 加 区 本 | 


的 数据 预 处 理 





Er 


以 增加 准确 性 。 








在 第 2 章 你 学 习 了 如 何 处 理 分 类 特征 。 有 些 机 器 学 习 算 法 


可 直接 处 理 分 类 特征 ,但 要 对 分 类 特征 使 用 常用 的 “布尔 化 ” 














技术 : 要 把 特 和 











FE 中 每 个 可 能 的 类 别 创建 0 列 或 1 列 。 这 使 得 任 图 6-9 ”随机 森林 模型 的 重要 特征 








O 














何 机 器 学 习 算法 不 需要 改变 算法 本 身 ， 就 可 以 处 理 分 类 数据 。 。 下 车 和 乘 车 的 地 理 位 置 特征 似乎 








x 罗 S 草 开 | 
转换 所 有 分 类 特征 的 代码 见 清单 6_3 窑 了 模型 
清单 6-3 ”把 分 类 列 转换 成 数值 特征 


def cat_to_num (daqata) : 


categories =unique (data) 


features = {} 


下 国 多 





把 一 个 分 类 
列 转换 成 一 系 
列 数值 列 的 
函数 


cat in categories: 


binary = (data == cat) 





features["%$ s:$ s"%$ (data.name, cat)] =binary.astype ("int") 


return pandas.DataFrame (features) 
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Dayment_type_cats =cat_ to numl(datal[l'payment type']) 


vendor_id cats =cat_ to numl(datal'vendor_id']) 


store angd fwd flag _ cats =cat to num(datal[l'store and fwd_ flag ']) 


rate_code _ cats =cat_ to num(datal'rate_ code']) 


把 数据 集中 的 
4 个 分 类 特征 
转换 成 数值 型 











data =data.join(payment type_ cats) 

data = data.join(vendor_id cats) 把 转换 后 的 数据 添 
ee 加 到 全 体 数 据 集中 ， 

data =aata. join(store_ana_fwdq_ flag_cats) 以 用 于 训练 和 测试 

data =dqata.join(rate_code_cats) 


Eg 


运行 


在 创建 了 布尔 化 列 之 后 ， 你 可 以 在 清单 6-2 中 重新 


T 


数据 ， 得 到 的 ROC 曲线 和 特征 





重要 度 列 表 如 图 6-10 所 示 。 注 意 ，AUC 有 了 稍 许 提高 ， 从 0. 64 到 0. 656 。 


1.0 


0.8 


0.6 


项 导 粒 


0.4 


线 下 面积 (AUC) 为 0.656 


0.2 








假 正 率 


图 6-10 所 有 分 类 变量 转换 成 布尔 (0/1) 列 后 的 随机 森林 的 ROC 











dropoff latitude 0.163023 


新 特征 
曲线 和 特征 重要 度 列 表 ， 一 个 特征 


特征 重要 度 


国 
国 
国 
国 
国 


0 























转换 后 对 应 一 个 分 类 。 新 的 特征 给 数据 表 带 来 了 新 的 有 用 信息 ， 因 为 AUC 较 先 前 没有 分 类 特征 的 模型 








有 了 提高 


随 着 模型 性 能 的 提高 , 你 可 以 考虑 附加 因素 。 当 然 你 还 
因为 到 目前 为 止 ， 对 数据 的 转换 还 是 最 基本 的 预 处 理 。 


6.2.4 包含 日 期 -时 间 特 征 











没有 进行 任何 真正 的 特征 工程 ， 


现在 是 产生 新 特征 的 时 候 了 ， 就 是 你 以 前 知道 的 特征 工程 (feature engineering ) 。 在 第 5 
章 ， 我 们 介绍 了 日 期 -时间 特征 转换 ， 把 日 期 和 时 间 转 换 成 数值 列 。 你 可 以 很 容易 地 猜想 ， 








一 天 中 的 某 个 时 间或 一 周 中 的 某 一 天 ， 可 能 对 乘客 付 小 费 产 生 一 定 的 


计算 这 些 特 征 的 代码 见 清单 6-4。 





EM 
尿 乡 


响 。 
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清单 6-4 日 期 -时 间 特 征 
# 日 期 - 时 间 特 征 〈 一 天 中 的 第 几 小 时 ， 一 周 中 的 第 几 天 ， 一 年 中 的 第 几 个 星期 ) 





























本 ) 转换 成 实际 的 日 
和 时 间 





ropoff =pandas. to_datetime (datal[l'dropoff_datetime ']) 











pickup =pandas. to_datetime (data['pickup_datetime ']) 把 日 期 -时 间 列 ( 文 


data['pickup_hour '] =pickup.apply (lambda e: e.hour) 


data['pickup_day '] =pickup.apply (lambda e: e.dayofweek) 向 搭乘 时 间 添 加 小 时 、 
天 和 星期 特征 




















data['pickup_week '] =pickup.apply (lambda e: e.week) 
datal['dropoff_ hour '] =dropoff.apply (lambda e: e.hour) 


datal['dropoff_day '] =dropoff.apply (lambda e: e.dayofweek) ee 
H 星 征 
































datal[l'dropoff week '] =dropoff.apply (lambda e: e.week) 
有 了 这 些 日 期 - 时 间 特 征 ， 你 可 以 构建 新 的 模型 。 再 把 数据 在 清单 6-2 的 代码 中 运行 
一 次 ， 得 到 的 ROC 曲线 和 特征 重要 度 如 图 6-11 所 示 。 











































































0.0 0.2 0.4 0.6 0.8 1.0 
假 正 率 





下 线 一 一 随机 曲线 图 

0.8 

真 0.6 
还 

一 

线 下 面积 (AUC) 为 0.656 | 

0.2 

|: | 

| 


新 特征 




















图 6-11 包括 所 有 分 类 特征 和 附加 的 日 期 - 时 间 特 征 的 随机 森林 模型 的 ROC 曲线 和 特征 重要 度 列 表 

可 以 看 出 ， 随 着 额外 的 数据 预 处 理 和 特征 工程 ， 模 型 准确 度 的 进化 过 程 。 现 在 ， 你 可 以 
以 很 高 的 精确 度 随机 预测 乘客 是 否 会 给 驾驶 员 小 费 。 到 现在 为 止 ， 你 只 是 改善 数据 来 提升 模 
型 但 还 可 尝试 其 他 几 种 方式 提升 模型 : 

e 通过 改变 模型 的 参数 ， 观 察 默认 值 是 否 为 最 优 的 。 

。 增加 数据 量 。 

在 本 章 我 们 已 经 严重 削减 了 数据 集 ， 以 便 使 16 GB 内 存 的 机 器 也 可 处 理 它 。 在 第 9 章 和 
第 10 章 ， 我 们 将 更 多 地 讨论 规模 化 方法 的 问题 ， 但 现在 我 们 把 对 数据 处 理 ， 进 一 步 提高 交 
又 验证 的 准确 度 的 任务 交 给 读者 ! 


6.2.5 模型 的 启示 
通过 建 模 预 测 答案 的 方式 获得 对 数据 的 见解 ， 是 十 分 有 趣 的 。 从 特征 重要 度 的 列表 中 可 
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以 看 出 哪些 参数 最 具有 预测 力 ， 并 使 用 它们 重新 审视 数据 。 在 我 们 最 初 失败 的 尝试 中 ， 就 是 
因为 观察 了 特征 重要 度 列表 ， 才 发 现 了 数据 的 问题 所 在 。 在 当前 工作 的 模型 中 ， 你 仍然 可 以 
通过 这 个 列表 得 到 一 些 新 的 发 现 。 

在 本 节 的 每 次 迭代 中 ， 最 重要 的 特征 是 上 车 /下 车 位 置 。 图 6-12 所 示 画 出 了 下 车 小 费 
情况 的 地 理 位 置 分 布 。 


一 73.90 

















一 73.92 


一 73.94 


一 73.96 


一 73.98 


涵 巩 其 才 


一 74.00 





一 74.02 


一 74.04 








1 1 业 1 | 
40.60 40.65 40.70 40.75 40.80 40.85 40.90 
下 车 纬度 


图 6-12 下 车 位 置地 理 分 布 





























图 6-12 显示 了 一 个 有 趣 的 趋势 ， 那 就 是 越 接近 市 区 的 下 车 点 越 没 有 小 费 。 为 什么 会 这 
样 ? 一 个 可 能 的 原因 是 ， 交 通 状 况 使 得 旅途 变 缓慢 ， 乘 客 不 喜欢 司机 的 驾驶 习惯 。 城 市 这 个 
受 欢迎 的 区 域 充 满 了 金融 工作 者 和 旅游 的 人 。 我 们 认为 金融 一 族 分 布 在 曼哈顿 以 南 较 远 的 地 
区 。 男 一 个 原因 ， 主 要 是 旅游 者 导致 了 这 种 差异 ,我 认为 : 许多 国家 的 小 费 习惯 与 美国 大 不 
相同 。 某 些 亚洲 国家 几乎 没有 小 费 ， 许 多 北欧 国家 小 费 很 少 ， 基 本 上 没有 出 租车 的 事 。 在 这 
个 数据 集 上 你 还 可 能 看 出 其 他 有 趣 的 事情 。 当 然 ， 现 实 世 界 的 数据 经 常 被 用 来 说 一 些 关 于 现 
实 世界 和 人 类 产生 数据 的 有 趣 的 事 。 

















6.3 总结 


本 章 介 绍 了 现实 世界 的 数据 集 ， 并 定义 了 一 个 问题 ， 这 个 问题 适合 用 前 面 5 章 的 机 器 学 
习 知 识 来 解决 。 你 经 过 了 整个 的 机 器 学 习 流 程 ， 包 括 初 始 化 数据 、 特 征 工 程 、 多 次 建 模 和 迭 
代 、 模 型 评估 、 优 化 和 预测 。 主 要 内 容 如 下 : 
e 随 着 组 织 产 生 的 大 量 数据 ， 如 果 不 公 开 ， 则 组 织 内 部 可 获得 大 量 的 数据 。 
e 2013 年 NYC 所 有 出 租车 旅程 记录 已 经 公开 发 布 。NYC 每 年 会 产生 大 量 的 出 租车 行程 
记录 。 
e 现实 数据 可 能 很 混乱 。 可 视 化 技术 和 和 领域 知识 可 帮助 解决 这 一 问题 。 不 要 被 太 好 而 不 
115 














实用 机 器 学 习 


实际 的 现象 所 困惑 ， 也 不 要 对 数据 做 不 成 熟 的 假设 。 

。 如 果 有 可 能 ， 从 最 简单 的 模型 开始 迭代 。 对 于 不 成 熟 的 优化 不 要 浪费 时 间 ， 逐 步 增加 
复杂 度 。 

。 在 进行 中 选择 。 例 如 ， 选 择 一 个 早期 算法 ， 在 理想 状态 下 ， 你 需要 在 建 模 迭 代 过 程 中 
的 每 一 步 尝 试 所 有 的 组 合 ， 但 你 必须 解决 一 些 问题 才能 取得 进展 。 

。 深入 理解 模型 和 数据 ， 以 便于 学 习 领 域 知识 ， 进 一 步 提升 模型 。 


6.4 本章 术语 


本 章 术 语 见 表 6-1。 














表 6-1 本 章 术语 






















































































开源 数据 (open data) 由 学 术 机 构 或 组 织 获得 并 公开 发 布 的 数据 
FOIL 消息 自由 法 。( 信息 自由 法 案 的 联邦 版 本 ， 也 称 为 FOIA) 
天 好 而 不 真实 的 场景 如 果 模 型 的 精确 度 比 你 想象 的 要 高 很 多 ， 屠 很 可 能 是 因为 模型 中 的 某 些 特征 或 数据 
(too - good -to -be -true scenario) | 在 作怪 ， 导 致 模型 带 有 “欺骗 性 ” 
” ee 未 经 验证 的 关于 数据 的 假设 ， 带 有 个 人 偏见 的 风险 
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第 7 章 
高 级 特征 工程 


本 章 导读 

e@ 使 用 高 级 特征 工程 提升 机 器 学 习 系 统 的 准确 性 。 

@ 使 用 自然 语言 处 理 技 术 从 文本 中 提取 有 价值 的 特征 。 
@ 从 图 像 中 提取 信息 用 作 机 器 学 习 项 目的 特征 。 


在 第 5 章 你 已 经 学 习 了 特征 工程 的 概念 ， 并 在 第 6 章 中 把 简单 的 特征 工程 应 用 于 现实 数 
据 。 在 本 音 ， 你 将 学 习 应 用 当前 常见 数据 类 型 的 更 高 级 的 技术 ， 文 本 和 图 像 是 很 重要 的 两 个 
方面 。 本 章 讲述 从 文本 和 图 像 数 据 中 提取 特征 的 高 级 技术 ， 以 便于 把 这 些 数据 应 用 到 机 器 学 
习 处 理 流程 中 。 

















7.1 高 级 文本 特征 





在 第 5 章 你 已 经 见 过 文本 数据 的 简单 特征 工程 。 在 这 一 节 中 ， 提 供 关于 这 一 技术 更 为 详 
细 的 思想 ， 并 给 出 可 以 进一步 提高 模型 的 更 高 级 的 概念 。 

回忆 一 下 ,在 文本 中 提取 特征 的 任务 是 把 不 同 长 度 的 文本 和 单词 转换 成 特征 集 。 在 第 5 
章 学 习 了 词 袋 表示 。 在 词 袋 表 示 中 ， 统 计 所 有 文本 中 单词 出 现 的 次 数 ， 并 把 出 现 次 数 最 多 的 
NN 个 单词 作为 新 的 特征 。 这 个 把 自然 语言 文本 转换 成 机 融 可 用 数据 的 过 程 称 为 自然 语言 处 理 
(Natural Language Processing，NLP) 。 
7.1.1 词 袋 模型 

词 袋 (bag of words) 是 NLP 中 最 简单 ， 但 应 用 最 广泛 的 一 种 技术 ， 是 任何 文本 处 理 问 
题 入 门 的 金 钥 匙 ， 也 是 本 章 后 面 介 绍 的 更 高 级 方法 的 基础 。 你 将 分 两 部 分 学 习 这 个 模型 : 首 
先是 划分 和 转换 ， 然 后 是 向 量化 。 

划分 和 转换 (tokenization and transformation ) 

把 文本 拆 分 成 更 小 的 部 分 称 为 划分 (tokenization ) 。 通 常 这 种 划分 是 基于 单词 的 ， 但 在 
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某 些 情况 下 〈 例 如 ， 对 于 基于 字符 的 语言 ) ， 可 能 基于 字符 对 或 者 更 高 级 的 字符 组 进行 划 
分 。 拆 分 后 的 每 个 分 组 称 为 n 字 词 (n - grams)。 两 个 或 三 个 单词 的 组 合 分 别称 为 双 字 词 
(bigrams) 和 三 字 词 (trigrams) (它们 是 除 单字 词 (unigrams) 之 外 较为 常用 的 分 组 形式 ) 。 
图 7-1 中 双 字 词 的 例子 包括 “the lazy” 和 “brown fox” 等 ， 三 字 词 包括 “brown fox jumps” 


和 “jumps over the”。 





The quick brown fox jumps over the lazy dog. 文本 1 
2 
The lazy brown fox jumps over the dog. 文本 


拆 分 文本 站 


(如 以 单词 为 基准 ) 








上 理 单 i 








处 
(如 处 理 小 写 





| ?| ?| :| 


























图 7-1 词 袋 提取 算法 的 初始 步骤 








扩展 到 多 个 单词 在 某 些 情况 下 有 益 于 模型 ， 因 为 这 样 可 提供 更 多 的 上 下 文 信息 。 但 是 使 
用 多 个 词 的 划分 通常 使 特征 的 数量 急剧 膨胀 。 在 实际 应 用 中 ， 通常 从 单字 词 表 示 开 始 。 如 果 
要 升级 到 更 多 字 的 词 ， 则 必须 确定 所 使 用 的 机 器 学 习 算 法 是 能 够 处 理 稀 琉 数据 的 。 你 将 在 接 
下 来 的 小 节 中 详细 学 习 这 部 分 内 容 。 

词 袋 算法 的 下 一 步 工作 是 把 划分 结果 进行 某 些 必要 的 转换 (transformation ) 。 一 个 很 好 
的 转换 例子 是 把 所 有 单词 变 成 小 写字 母 ， 这 样 就 不 会 产生 “fox” 和 “Fox” 这 样 的 结果 ， 从 
而 减少 模型 的 噪声 。 但 在 某 些 情况 下 ， 对 项 目 有 意义 的 大 小 写 〈 例 如， 文本 中 的 名 字 很 多 ， 
且 有 很 高 的 预测 性 ， 或 者 所 有 的 大 写字 母 都 有 意义 ) 就 应 该 保留 。 取 词 干 (stemming)， 去 
掉 单 词 的 前 级 或 后 级 也 是 一 种 强大 的 转换 方式 ， 用 于 从 同义词 中 抽取 更 多 的 信号 。 例 如， 使 
用 取 词 干 的 方法 ， 单词 “jump,”“jumping,”“jumps,” 和 “jumped” 在 词典 中 只 有 一 个 表示 
“jump”。 其 他 的 转换 方式 ， 如 自 定 义 数 字 、 标 点 符号 和 特征 字符 的 处 理 ， 也 十 分 有 用 ， 这 
取决 于 要 处 理 的 文本 。 

接 下 来 ,要 定义 产生 特征 的 字典 。 对 于 机 絮 学 习 项 目 ， 一般 需 要 限制 特征 的 数量 ， 也 就 
是 词典 中 单词 的 数目 。 这 需要 对 单词 出 现 的 次 数 进行 排序 ， 然 后 取出 现 次 数 最 多 的 前 NN 个 
单词 。 
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向 量化 ( vectorization ) 


你 可 以 使 用 词 袋 词 典 产 生 用 于 模型 的 特征 。 定 义 词典 后 ， 可 以 把 任何 文本 转换 成 字典 中 








每 个 单词 出 现 的 次 数 。 图 7-2 示 出 了 这 一 处 理 过 程 ， 这 个 处 理 过 程 称 为 向 量化 。 























维基 百科 中 关于 
“quick brown fox” 


的 全 字母 短 句 














图 7-2 使 用 词典 ， 你 可 以 把 每 个 文本 表示 成 一 系列 数字 。 行 显示 了 图 7-1 中 两 段 文本 和 维基 百科 全 
字母 短 句 (包括 英语 字母 表 中 的 所 有 字母 )“The quick brown fox jumps over the lazy dog,” 的 文本 统计 











但 还 有 一 个 问题 我 们 没有 讨论 。 大 多 数 自 然 语 言 文 本 包含 大 量 的 单词 ， 这 些 单词 对 于 理 
解 主题 内 容 并 不 重要 , 但 却 简 单 地 被 “包含 ”进来 。 这 样 的 单词 如 “the,”“is,” 和 
“and. ”， 在 NLP 研究 中 ， 这 些 词 称 为 终止 词 (stop words) ， 它 们 通常 从 词典 中 删除 ， 因 为 
它们 没有 太 高 的 预测 意义 ， 反 而 会 稀释 对 机 器 学 习 有 意义 的 单词 。 对 单词 按 出 现 次 数 排序 
后 ,通常 删除 终止 词 的 做 法 是 ， 删 除 出 现 次 数 高 于 阔 值 的 所 有 单词 。 图 7-2 示 出 了 这 样 的 
一 个 例子 ,文本 越 长 (图 中 第 3 行 ),“the” 比 其 他 单词 出 现 的 次 数 就 越 多 。 这 里 面临 的 挑 
战 是 如 何 定 义 浆 值 ， 在 这 个 值 以 上 的 就 是 终止 词 ， 而 不 是 有 意义 的 单词 。 大 多 数 NLP 词典 ， 
如 NLTK Python 词典 ， 已 经 内 置 了 终止 词 列 表 ， 因 此 不 用 每 次 都 做 这 件 事 情 (设置 合适 的 国 
值 ) 。 但 在 有 些 情 况 下 ， 对 于 特定 项 目的 终止 词 列表 可 能 不 同 ， 你 需要 选择 终止 词 阀 值 ( 典 
型 的 选择 是 排除 所 有 文档 中 出 现 次 数 超过 90% 的 所 有 单词 ) 。 

虽然 在 图 7-2 中 并 不 明显 ， 但 在 任何 现实 词典 中 都 包含 许多 单词 ， 只 有 一 小 部 分 出 现 
在 产生 特征 的 文档 中 。 这 种 组 合 通常 使 文本 特征 包含 大 量 的 0。 只 有 少数 词典 单词 出 现在 给 
定 的 文档 中 ， 因 此 我 们 称 词 袋 特征 是 稀 玻 的 〈sparse) 。 如 果 你 有 很 多 稀 玻 特征 (通常 是 
1000 个 特征 中 只 有 百分比 很 少 的 非 零 元 素 ) ， 选 择 内 在 支持 稀 玻 特征 处 理 的 算法 ， 或 者 能 
处 理 很 多 低 重 要 特征 又 不 损失 精度 的 算法 是 比较 明智 的 。Python scikit - learn 包 中 的 朴素 贝 
叶 斯 算法 内 在 的 文 持 稀 玻 数据 的 处 理 ， 因 此 十 分 适合 文本 分 类 问题 。 有 些 算法 ， 如 随机 森林 
算法 以 很 好 地 处 理 大 量 低 重要 特征 而 著称 ， 也 可 以 作为 你 的 选择 。 你 应 该 经 常 使 用 第 4 章 讨 
论 的 评价 和 优化 技术 ， 对 不 同方 法 的 效率 进行 测试 。 


7.1.2 主题 建 模 


词 袋 方法 易于 理解 也 易于 实现 ， 但 其 他 更 高 级 的 方法 能 使 机 器 学 习 模 型 的 准确 度 大 幅 增 
加 。 本 节 介 绍 3 种 这 样 的 方法 。 
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第 一 个 问题 是 ， 词 袋 模型 的 本 质 是 简单 的 单词 记 数 。 如 果 一 个 单词 ( 非 终止 词 ) 在 词 料 
库 中 很 常见 ， 例 如 ， 机 器 学 习 论文 中 的 “data” 单 词 ， 即 使 知道 它 会 出 现在 新 的 文档 中 ， 也 没 
有 太 大 意义 。 相 反 ， 你 应 该 专注 于 出 现 次 数 较 少 ， 但 对 结果 有 较 高 预测 性 的 单词 。 为 了 处 理 这 
种 情况 ， 常 用 的 方法 是 ， 对 于 语料库 中 的 单词 以 出 现 总 次 数 倒序 的 方式 进行 排序 。 因 为 你 要 最 
好 地 描述 一 个 文本 ， 最 好 的 办 法 是 只 使 用 数字 ， 如 果 一 个 单词 在 训练 语料库 中 出 现 得 不 多 ,但 
在 新 文档 中 却 大 量 出 现 ， 则 可 能 更 能 反映 新 文档 的 含义 ， 对 于 这 样 的 单词 最 好 予以 重视 。 

词 频 逆向 文件 频率 

解决 这 个 问题 的 常用 算法 称 为 词 频道 向 文件 频率 (term frequency - inverse document fre- 
quency) ， 简 称 萎 -idf。 这 个 算法 是 通过 词 频 (term frequency, tf) 和 逆向 文件 频率 (inverse 
document frequency, idf) 的 乘积 进行 计算 的 。 

有 不 同 的 计算 方法 ,但 最 简单 的 方法 是 计算 特定 文档 中 一 个 单词 的 出 现 次 数 。 对 tf 
子 常用 的 还 有 其 他 版 本 ， 如 二 进 制 版 本 (单词 在 文档 中 出 现 则 记 为 1， 否 则 为 0) 和 对 数 版 
本 (1 +log[ tf])。 

逆向 文件 频率 是 文档 总 数 除 以 包含 单词 的 文档 数 的 对 数 ， 因 此 相对 不 经 常 出 现 的 单词 得 
分 越 高 。 最 简单 的 萎 - idf 方程 形式 如 下 : 





count( docs ) 
count( docs with term ) 


tf-idf 是 从 文本 语料库 中 产生 好 的 机 器 学 习 特 征 的 强大 工具 ， 在 其 他 领域 也 很 有 用 ， 如 
研究 领域 。 因 为 要 对 任意 文档 产生 数字 向 量 ， 你 可 以 发 现 文档 间 的 “距离 ”， 作 为 萎 -idf 向 
量 表示 的 距离 。 如 果 用 户 搜索 查询 的 是 一 个 文档 ， 则 可 以 通过 这 种 方式 找到 数据 集中 的 任何 
其 他 文档 之 间 的 距离 ， 因 此 将 基于 查询 的 文档 的 排名 列表 返回 给 用 户 。 下 一 小 节 中 的 清 
单 7-1 展示 了 如 何 使 用 Python 的 scikit - learn 库 从 文档 中 产生 站 -idf 向 量 ， 并 使 用 了 更 高 级 
的 潜在 语义 索引 技术 。 

潜在 语义 索引 

潜在 语义 分 析 (Latent Semantic Analysis) 或 LSA (通常 也 称 作 潜在 语义 索引 ， 或 LSI) 
是 一 种 更 复杂 的 主题 建 模 方法 。 它 无 论 从 概念 上 还 是 计算 上 都 是 更 高 级 的 。 它 的 思想 是 通过 
词 袋 计数 ， 构 建 词 语 -文档 矩阵 ， 每 一 行 代表 一 个 术语 ， 每 一 列 代表 一 个 文档 。 然 后 ， 该 矩 
阵 的 元 素 与 人 -idf 过 程 类 似 地 被 标准 化 ， 以 避免 频繁 的 术语 占据 矩阵 的 震 。 

LSA 算法 的 高 明之 处 在 于 它 的 概念 〈concept) 的 思想 。 概 念 代 表 文 本 语料库 中 相似 的 
术语 。 例 如 ,“ 狗 ”的 概念 可 能 包含 相关 的 “ 哄 ”“ 狗 带 ” 和 “ 狗 窒 ”。 算 法 并 不 对 “ 狗 ” 
这 一 概念 进行 标记 ， 而 是 找 出 哪些 单词 通过 在 文档 中 同时 出 现 而 相关 ， 然 后 确定 这 些 单词 是 
通过 某 个 抽象 的 概念 联系 在 一 起 的 。“ 狗 ”这 个 词 本 身 与 “ 狗 ” 这 一 概念 密切 相关 。 这 些 主 
题 被 认为 是 隐藏 或 潜在 数据 中 的 ， 因 此 被 称 为 潜在 语义 分 析 。 





tf ~ idf(term ,doc ,docs) = count( term in doc ) 

















LSA 使 用 奇异 值 分 解 (Singular Value Decomposition ，SVD) 2 一 一 种 知名 的 数学 工具 ， 把 
© 对 于 熟悉 主 成 分 分 析 (在 本 章 稍 后 讨论 ) 的 读者 来 说 ，SVD 是 一 种 相似 的 技术 ， 它 可 以 使 你 从 数据 集中 计算 PCA 











坐标 。 你 也 可 以 认为 LSA 是 词 袋 技 术 的 PCA。 
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词语 - 文档 矩阵 (4) 分 解 成 3 个 矩阵 (T,，S,，D)。T 为 关联 术语 (如 “ 呐 ” 和 “ 狗 
窝 ”) 和 概念 (如 “ 狗 ”) 的 术语 -概念 矩阵 ，D 为 关联 单个 文档 和 概念 的 概念 - 文档 矩 
阵 ， 后 面 你 将 使 用 这 些 概念 从 LSA 模型 中 抽取 特征 。 和 矩阵 5 保存 奇异 值 。 在 LSA 中 ， 这 
些 表 示 了 术语 对 文档 的 相对 重要 性 。 就 像 限 制 词 袋 和 -idf 算 法 的 特征 数 一 样 ， 你 现在 
可 以 选择 顶端 的 奇异 值 ， 并 把 特征 空间 限制 在 可 控 范 围 内 ， 记 住 ， 词语 -文档 矩阵 (4) 
可 能 是 大 而 稀 玻 的 。 

使 用 SVD 最 顶端 的 W 个 元 素 ， 从 概念 -文档 矩阵 (D) 中 抽取 对 应 的 行 产 生机 絮 学 习 
模型 的 NN 个 特征 。 当 有 新 的 文档 需要 预测 时 ， 你 可 以 从 前 面 学 习 的 LSA 模型 通过 和 矩阵 相 乘 
的 方法 : D =4”TS “产生 新 的 特征 。 这 里 的 4 是 使 用 自 定义 词典 对 新 文档 的 单词 计数 (或 
-idf), T 和 S 是 SVD 中 的 术语 - 概念 矩阵 和 奇异 值 矩 阵 。 

虽然 理解 LSA 的 原理 十 分 有 用 ， 但 并 不 是 每 个 人 对 线性 代数 都 十 分 了 解 且 懂得 这 些 计 
算 。 幸 和 运 的 是 ， 已 经 有 非常 多 的 实现 可 以 直接 用 在 你 的 机 器 学 习 项 目 中 。Python 的 scikit - 
learn 库 包 含 了 运行 LSA 的 功能 : 四 使 用 t -idf 产生 词语 - 文档 矩阵 ; 四 进行 矩阵 分 解 ; 
@) 把 文档 转换 成 向 量 ， 见 清单 7-1。 

清单 7-1 使 用 scikit -learn 进行 潜在 语义 分 析 






























































from sklearn. feature_ extraction.text import TfidfVectorizer 用 默认 参数 初 

from sklearn. decomposition import TruncatedSVD 始 化 tidf 对 象 

def latent_ semantic analysis (docs): 从 文档 中 创 
tfidf =TfidfVectorizer () 建 tf-id 词 典 
tfidf.fit (docs) 


vecs =tfidf.transform(docs) 


svd =TruncatedSVvD(n_components =100) 











使 用 词典 产生 tf-id 绸 征 和 矩阵 











svd. fit (vecs) 


return svd.transform(vecs) 
100 个 坐标 初始 化 LSA 对 象 
特征 























创建 SVD 和 矩阵 对 所 有 文档 计算 LSA 





接 下 来 你 将 看 到 LSA 的 一 些 高 级 扩展 ， 最 近 这 在 主题 建 模 领 域 中 十 分 流行 。 

概率 方法 (probabilistic methods ) 

LSA 基于 线性 代数 〈 关 于 向 量 和 移 阵 的 数学 ) ,但 也 可 以 使 用 对 等 的 概率 方法 进行 分 
析 ， 把 每 个 文档 看 作 主 题 分 布 的 统计 混合 。 这 些 概念 都 相对 高 级 ， 在 此 我 们 不 深入 研究 它们 
的 数学 细节 ， 但 概率 方法 对 于 某 些 数据 集 的 模型 准确 度 有 更 好 的 表现 。 

概率 对 LSA 的 模拟 又 称 作 pLSA (概率 的 LSA) 。 一 个 广泛 使 用 的 版 本 称 为 潜在 狄 利克 
雷 分 析 (Latent Dirichlet Analysis, LDA) ， 对 主题 分 布 做 了 一 些 特定 的 假设 。 你 采用 的 假设 
是 , 文档 可 由 较 小 的 主题 集 进行 描述 ， 以 及 任意 术语 (单词 ) 都 可 归结 为 一 个 主题 。 在 实 
际 操作 中 ， 对 于 各 种 数据 集 LDA 都 表现 得 很 好 。 清 单 7-2 中 的 代码 说 明了 如 何在 Python 中 
通过 Gensim 库 实现 LDA。 
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清单 7-2 Python 中 使 用 Gensim 进行 潜在 狄 利克 雷 分 析 











import gensim.models. ldamodel.LdaModel 首先 执行 
“pip install gensim” 
def lda_model (docs): 安装 Gensim 
return LAaModel (docs, num topics =20) 设置 提取 的 主题 数目 
构建 LDA 模 型 
def lda vector(lda model, doc): 
return lda_model [doc] 产生 新 文档 的 特征 


LDA 模型 中 使 用 的 主题 数 是 一 个 参数 ， 可 以 根据 数据 和 要 解决 的 问题 进行 调整 。 我 们 
鼓励 你 自 定 义 自己 的 性 能 标准 ， 并 使 用 第 4 章 学 过 的 技术 优化 模型 。 值 得 注意 的 是 ， 如 果 新 
的 训练 数据 是 连续 产生 的 ， 则 Gensim LDA 可 以 随时 更 新 。 我 们 鼓励 你 在 Gensim 中 找到 更 多 
其 他 有 趣 的 自然 语言 处 理 和 主题 建 模 的 算法 。 在 第 10 章 中 ， 你 将 使 用 这 些 高 级 文本 特征 抽 
取 技术 解决 一 个 实际 的 机 器 学 习 问 题 。 下 一 节 将 介绍 一 种 完全 不 同 的 文本 特征 抽取 方法 一 一 
扩展 文本 的 内 容 。 


7.1.3 ”内容 拓展 


我 们 现在 转向 一 种 完全 不 同 的 文本 特征 抽取 方法 。 本 节 中 的 方法 不 再 用 数字 表示 文本 ， 
而 是 把 文本 内 容 进 行 扩展 以 包含 更 多 的 文本 (将 来 可 被 特征 化 ) 或 者 对 特定 的 机 器 学 习 问 
题 引 入 其 他 有 用 的 信息 。 下 面 是 一 些 常 用 的 内 容 扩 展 方 法 。 

跟踪 链接 (follow links ) 

如 果 你 要 从 推 文中 提取 文本 特征 构建 机 器 学 习 分 类 器 〈 例 如 ， 对 Twitter 帖子 的 情感 分 
析 ， 是 积极 的 还 是 消极 的 ) ， 将 会 遇 到 140 个 字符 限制 的 问题 。 你 可 能 没有 足够 的 信息 获取 
期 望 的 模型 准确 度 。 

许多 推 文 都 包含 指向 外 部 页 面 的 链接 ， 以 包含 更 多 的 文字 信息 ， 你 可 以 通过 链接 文本 扩 
展 Tweet 以 得 到 更 高 质量 的 数据 。 你 还 可 以 更 深入 地 跟踪 Web 页 面 链接 构建 更 大 的 文本 语 
料 库 。 

基于 知识 的 扩展 (knowledge - base expansion ) 

文本 扩展 的 更 高 级 方法 是 检测 文本 中 的 命名 实体 ， 并 利用 在 线 的 命名 实体 知识 库 来 扩展 
原始 文本 信息 ， 如 维基 百科 。 在 这 种 情况 下 ， 命 名 实体 可 以 是 维基 百科 中 的 任意 东西 。 然 
后 ， 你 可 以 从 维基 百科 中 抓 取 命 名 实体 的 词 条 ， 并 使 用 7. 1. 2 节 的 算法 进行 文本 提取 。 

提取 命名 实体 不 是 一 个 琐碎 的 任务 ， 一 直 是 几 个 研究 小 组 的 研究 课题 。 其 中 一 个 问题 源 
于 命名 的 模糊 性 。 如 果 一 个 单词 有 多 重 含义 ， 那 么 就 存在 使 用 完全 错误 的 信息 扩展 特征 的 风 
险 。 一 个 可 能 的 解决 方案 是 通过 使 用 像 维基 百科 这 样 的 知识 库 来 再 次 消除 命名 实体 的 歧义 。 
首先 ， 举 例 来 说 ， 你 可 以 假设 Tweet 中 的 其 他 任何 单词 在 基于 知识 库 的 文本 中 是 很 常见 的 。 
你 还 可 以 使 用 维基 百科 链接 图 发 现 两 个 命名 实体 在 知识 库 中 是 如 何 紧密 相关 的 。 一 个 例子 是 
包含 “ 特 斯 拉 ” 的 推 文 ， 有些 推 文 链 接 到 电子 汽车 公司 ， 而 其 他 的 则 链接 到 发 明 家 尼 古 
拉 ，… 特 斯 拉 。 如 果 推 文中 包含 “轿车 ”或 “型 号 ”这 样 的 单词 ， 那 么 有 可 能 是 指 特 斯 拉 公 
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司 。 如 果 推 文中 包含 “ 埃 德 森 ”的 相关 实体 ,那么 有 可 能 是 指 一 个 人 ( 特 斯 拉 和 埃 德 森 
1884 年 共同 在 NYC 工作 ) 。 

文本 元 特征 (text meta - features ) 

另 一 个 使 用 有 价值 的 数据 扩展 文本 特征 的 技术 是 分 析 文 本 的 元 特征 (meta - features ) 。 
和 前 面 讨论 的 技术 不 同 ， 这 种 类 型 的 特征 是 与 问题 有 关 的 。 
还 是 让 我 们 以 推 文 为 例 。 一 条 推 文 包含 各 种 各 样 的 对 特定 推 文 有 价值 的 数据 ， 这 些 数据 
可 被 提取 出 来 ， 如 主题 标签 和 提示 ， 以 及 推 文 的 元 信息 ， 如 推 文 转发 和 收藏 计数 。 另 一 个 是 
基于 Web 文本 的 例子 ， 你 可 以 从 链接 文本 中 抽取 基本 信息 ， 如 顶层 域 中 的 文本 信息 。 在 通 
用 文本 处 理 中 ， 你 可 以 在 不 同 的 语言 中 提取 单词 、 字 符 或 特定 字符 数目 。 提 取 语 言 可 以 是 
ML 分 类 器 本 号 ， 其 将 答案 作为 另 一 分 类 需 的 特征 。 

为 了 选择 合适 的 元 特征 ， 需 要 开动 你 的 想象 力 和 有 关 问 题 的 知识 。 记 住 机 器 学 习 工 作 
流程 是 一 个 迭代 的 过 程 ， 你 可 以 找到 一 个 新 特征 ， 重 新 走 一 遍 流 程 ， 并 分 析 准 确 度 是 如 
何 提高 的 。 

你 也 可 以 从 文本 中 获取 其 他 类 型 的 数据 。 文 本 可 能 包含 日 期 和 时 间 ， 这 些 可 能 对 机 顺 学 
习 模 型 有 用 ， 或 者 在 文本 元 数据 中 包含 时 间 信 息 。 第 5 章 介 绍 了 日 期 - 时 间 特 征 的 提取 ， 可 
用 在 这 种 情况 中 。 

如 果 你 正在 分 析 Web 页 面 ， 或 者 文本 中 存在 URL (Uniform Resource Locator， 统 一 资源 
定位 符 ) ， 你 可 能 需要 访问 图 像 或 音频 ， 这 对 于 理解 文本 的 上 下 文 是 十 分 重要 的 。 从 图 像 和 
音频 中 提取 特征 是 更 高 级 的 技术 ， 你 将 在 7. 2 节 中 进行 学 习 。 
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7.2 图 像 特征 





人 类 智慧 的 要 素 之 一 是 我 们 的 视觉 和 空间 感 ， 以 及 我 们 在 图 像 和 每 天 导航 的 3D 场景 中 
识别 图 案 和 物体 的 能 力 。 我 们 思维 的 许多 方式 都 基于 这 种 能 力 。 一 方面 ， 计 算 机 以 位 和 它们 
的 视觉 模拟 像素 来 思考 。 由 于 历史 原因 ， 这 个 事实 严重 地 限制 了 计算 机 的 视觉 模式 识别 能 
力 , 与 人 类 的 认 知 能 力 无 法 比拟 。 只 有 随 着 计算 机 视觉 和 人 工 智能 的 复杂 算法 的 出 现 ， 机 噩 
学 习 才 开始 发 展 ， 研 究 人 员 和 从 业 人 员 使 计算 机 越 来 越 接近 人 类 水 平 ， 虽 然 常常 是 在 狭窄 的 
寺 定 领域 。 另 一 方面 ， 如 果 你 可 以 在 计算 机 视觉 和 机 咒 学 习 技 术 方 面 达 到 接近 人 类 模式 识别 
的 精确 水 平 ， 那 么 你 有 可 能 收获 大 多 计算 密集 型 系统 应 有 的 优势 : 可 扩展 性 、 可 用 性 和 可 重 
复 性 。 

本 节 介 绍 几 种 从 图 像 中 提取 特征 的 方法 ， 可 用 于 你 的 机 带 学 习 流 程 中 。 首 先 ， 你 将 看 到 
简单 的 图 像 特 征 ， 包 括 原 始 像 素 、 颜 色 和 图 像 元 数据 。 


7.2.1 简单 图 像 特 征 


最 简单 的 图 像 处理 还 是 有 必要 提 一 下 的 ,不 仅仅 是 因为 有 时 它 足 已 够 用 ， 而 是 因为 它 可 
以 彩 显 机 带 学 习 方 法 相对 于 传统 的 统计 学 方法 的 强大 魅力 。 你 把 机 带 学 习 模 型 要 处 理 的 图 像 
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像素 值 作 为 特征 。 

在 实用 中 ， 你 把 所 有 像素 构建 成 一 个 简单 的 行 ， 把 二 维 的 图 像 转换 成 一 维 的 。 如 果 是 彩 
色 图 像 ， 你 将 得 到 3 幅 基 本 图 像 〈( 红 、 绿 和 蓝 通 道 ) 。 通 常 像素 值 为 0.0 ~1.0, 或 0~25 
(对 于 8 位 图 像 ) 。 你 或 许 已 经 猜 到 了 ， 对 于 现代 图 像 ， 需 要 创建 数 千 到 上 百 万 的 特征 ， 这 
不 但 增加 了 计算 的 工作 量 ， 还 带 来 了 潜在 的 过 度 拟 合 ， 从 而 影响 准确 度 ， 这 也 是 这 种 方法 不 
太 实 用 的 原因 。 但 对 于 某 些 机 器 学 习 问题 ， 如 对 室内 图 像 和 室外 图 像 进 行 分 类 ， 不 经 过 复杂 
的 特征 工程 ， 它 仍然 工作 得 很 好 ， 这 可 能 让 你 比较 吃惊 。 

原理 上 ， 所 有 的 信息 都 编码 为 像素 。 如 果 你 基于 性 能 的 原因 (无 论 是 从 计算 的 角度 还 
是 从 准确 度 的 角度 ) 不 使 用 原始 像素 ,那么 针对 你 的 特殊 问题 ， 必 须 找到 一 种 用 较 少 的 特 
征 表示 图 像 的 方法 。 这 与 你 前 一 节 解 决 文本 特征 ， 和 其 他 许多 特征 工程 技术 是 相同 的 问题 。 
在 7.2.2 节 的 最 后 部 分 ， 我 们 介绍 一 些 新 的 自动 特征 提取 方法 ， 但 现 阶段 大 多 数 的 实用 图 像 
处 理 机 器 学 习 项 目 都 采用 本 节 描 述 的 方法 。 

颜色 特征 

让 我 们 假定 你 要 根据 图 像 中 的 景观 对 图 像 进行 分 类 ， 类 别 有 天 空 、 山 脉 和 草地 。 在 这 种 
情况 下 ， 由 组 成 成 分 的 颜色 表示 图 像 比较 有 用 。 你 可 以 计算 每 种 颜色 通道 中 简单 的 颜色 统计 
值 ， 如 平均 值 、 中 值 、 色 调 、 标 准 差 、 偏 度 和 峰 度 。 对 于 普通 的 RGB ( 红 、 绿 、 蓝 通道 ) 
图 像 ， 这 将 有 6 x3 = 18 个 特征 。 
另 一 套 表示 图 像 颜 色 的 特征 是 色彩 范围 。 表 7-1 列 出 了 覆盖 色彩 空间 的 可 能 的 颜色 
范围 。 























表 7-1 颜色 范围 特征 的 例子 。 把 除数 加 1 防止 除 以 0 时 产生 缺失 值 






















































































颜色 范围 定 文 
红色 范围 (red range) 红色 通道 中 最 大 值 减 去 最 小 值 的 差 值 
红 蓝 范围 (red -to -blue range) 红色 范围 /( 蓝 色 通 道中 最 大 值 减 去 最 小 值 +1) 
蓝 绿 范围 (blue -to - green range) ( 蓝 色 通道 的 最 小 值 减 去 最 大 值 ) / (绿色 通道 的 最 小 值 减 去 最 大 值 + 1) 
红 绿 范围 (red -to - green range) 红色 范围 / (绿色 通道 最 大 值 减 去 最 小 值 +1) 
图 像 元 数据 特征 


除 颜 色 信息 外 ， 图 像 还 包括 对 你 的 问题 有 用 的 元 数据 。 例 如 ， 对 于 大 多 数 照片 ， 在 拍摄 
时 照相 机 会 记录 EXIF 数据 。 如 果 你 要 构建 模型 预测 某 个 用 户 是 否 会 对 一 幅 图 像 感 兴趣 或 觉 
得 漂亮 ， 算 法 应 该 使 用 品牌 照相 机 和 镜头 ， 光 圈 值 和 缩放 水 平 。 表 7-2 列 出 了 比较 有 用 的 
图 像 元 数据 。 


表 7-2 可 包含 在 机 器 学 习 流 程 中 的 图 像 元 素数 据 特 征 


























特 征 定义 
制造 商 ( manufacturer) 生产 照相 机 的 公司 
方向 (orientation) 照相 机 的 方向 (横向 或 纵向 ) 
日 期 -时 间 (date -time) 拍摄 时 间 (使 用 第 5 章 介绍 的 日 期 -时间 特 征 ) 
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( 续 ) 
特 征 定 义 
压缩 方式 (compression ) 图 像 的 压缩 方式 (通常 是 JPEG 或 原始 方式 (未 压缩 ) ) 
解析 度 (resolution) 在 宽 高 空间 中 像素 的 数量 
长 宽 比 (aspect ratio) 通过 划分 高 度 和 宽度 分 辨 率 表 示 的 度量 
曝光 时 间 ( exposure time) 曝光 秒 数 
光圈 (aperture) 表示 光圈 的 f 值 (如 2.8 或 4.0) 
闪光 灯 (flash light) 闪光 灯 是 否 打 
焦距 (focal length) 镜头 到 焦点 的 距离 





有 了 这 些 简 单 的 特征 ， 你 就 可 以 解决 一 些 包 含 图 像 数据 的 机 器 学 习 问 题 。 当 然 ， 你 还 没 
有 表示 图 像 中 的 形状 和 物体 ， 很 明显 这 是 图 像 分 类 问题 中 非常 重要 的 部 分 ! 下 一 节 将 介绍 更 
高 级 的 常用 于 表示 物体 和 形状 的 计算 机 视觉 技术 。 


7.2.2 提取 物体 和 形状 


到 目前 为 止 ， 从 图 像 中 提取 信息 时 ， 你 还 没有 考虑 物体 和 形状 问题 。 在 本 小 节 中 ， 你 将 
看 到 几 种 方式 ， 用 数据 特征 表示 形状 ， 可 以 通过 统计 和 计算 的 方法 自 动 地 提取 信息 。 
边缘 检测 
表示 形状 最 简单 的 办 法 可 能 就 是 找到 它们 的 边界 ， 并 通过 边界 构建 特征 。 图 7-3 所 示 
展示 了 图 像 边缘 检测 (edge detection) 的 例子 。 
输入 图 像 应 用 Canny 边 缘 检 测算 法 
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到 7-3 对 女孩 照片 ? ( 左 图 为 输入 图 像 ) 应 用 Canny 边缘 检测 算法 ,产生 只 有 边缘 的 二 进 制图 像 ( 右 图 ) 


几 个 著名 的 算法 可 以 在 图 像 中 查找 边缘 。 比 较 常 用 的 是 Sobel 和 Canny 边缘 检测 算法 ， 
图 7-3 展示 的 是 Canny 算法 。 






































外 图 像 在 英国 维基 百科 网 站 上 ， 由 JonMcLoone 拍摄 ，CC BY -SA 3.0,，https://commons. wikimedia. org/w/index. php? 
curid =44894482 。 
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在 Python 中 用 scikit -image 处 理 图 像 

我 们 已 经 在 本 书 中 多 次 提 到 Python 的 scikit -learn 库 ， 因 为 它 提供 了 尝试 许多 机 器 
学 习 算 法 的 允 用 方式 。 在 计算 机 视 党 模拟 和 图 像 处 理 领 域 用 的 是 scikit - image 库 。 这 是 
尝试 本 节 算 法 的 有 用 方式 。 


如 果 使 用 pip 命令 ， 可 以 很 容易 地 安装 scikit -image 库 ， 代 码 如 下 : 


$ pip installscikit - image 
下 面 是 使 用 该 库 进行 边缘 检测 的 简单 合子: 


>>> importskimage 
>>> image = skimage. data. camera () 


>>>edges = skimage. filter. sobel (image) 


现在 你 已 经 提取 到 了 图 像 的 边缘 ， 可 以 从 这 些 边缘 中 提取 特征 了 。 最 简单 的 方法 是 计算 
图 像 中 边缘 的 数目 。 如 果 edges 是 边缘 图 像 ，res 是 网 像 的 解析 度 ， 则 计算 公式 如 下 : 
> edges 


res, Xx res, 

和 其 他 特征 一 起 ， 对 于 确定 感 兴趣 的 物体 十 分 有 用 。 你 还 可 以 根据 实际 情况 定义 其 他 基 
于 边缘 的 特征 。 例 如 ， 你 可 以 对 图 像 的 不 同 区 域 计 算 前 面 的 边缘 得 分 (edge_score)。 

高 级 形状 特征 

更 复杂 的 特征 提取 算法 可 用 于 检测 特定 的 形状 和 物体 。 其 中 之 一 是 方向 梯度 直方 图 
(Histogram of Oriented Gradients ，HOG ) 。 在 机 句 学习 中 ， 这 些 算 法 可 用 于 检测 图 片 中 的 人 脸 
和 特定 动物 。 

HOG 算法 是 一 个 各 种 图 像 处 理 技术 的 多 步 处 理 过 程 。 该 算法 的 目标 是 描述 图 像 区 域 中 
梯度 和 方向 变化 不 太 敏 感 的 形状 和 物体 。 通 过 以 下 几 步 来 完成 ; 

1) 计算 图 像 梯度 〈 图 像 边 缘 是 “移动 的 ”) 。 

2) 将 图 像 分 割 成 称 作 格子 〈cells) 的 小 块 。 

3) 计算 格子 中 梯度 的 方向 。 

4) 计算 每 个 格子 中 方向 的 直方 图 。 

通常 情况 下 ， 格 子 越 小 图 像 的 分 块 越 大 ， 并 用 于 格子 中 梯度 值 的 规范 化 。 通 过 这 种 方 
式 ， 可 以 避免 对 光线 和 阴影 过 于 敏感 。 每 个 格子 被 扁平 化 到 特征 列表 中 ， 用 于 描述 图 像 的 形 
状 ， 或 用 于 机 器 学 习 流 程 中 。 

和 平常 一 样 ， 你 从 实用 的 角度 关心 算法 的 有 用 性 ， 因 此 你 可 以 更 进一步 ， 使 用 已 经 实现 
的 库 处 理 HOG 特征 。Python 的 scikit - image 库 包含 HOG 的 易 用 版 本 。 清 单 7-3 中 的 代码 显 
示 了 如 何 计算 图 像 的 HOG 特征 。 图 7-4 所 示 显 示 了 美国 航天 员 Fileen Collins 照片 的 处 理 结 
果 ， 她 是 航天 飞机 的 首位 女 指挥 官 。 

清单 7-3 Python 中 scikit -image 库 的 有 向 梯度 直方 图 














edge_score = 
















































































import skimage 
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image = SKkimage. color.rgb2gray (skimage.data.astronaut () ) 
hog =skimage. feature.hog (image, orientations =9, pixels_per_cell = (8,8), 


cells_ per block = (3,3), normalise =True, visualise =True) 


输入 图 像 方向 梯度 直方 图 





图 7-4 HOG 转换 。 图 片 来 源 于 scikit - image 文档 5 


定义 相关 的 方向 数 、 格 子 大 小 (以 px 为 单位 ) 、 格 子 中 块 的 大 小 ， 以 及 是 否 规范 化 ， 
就 可 以 很 容易 地 计算 HOG 特征 ， 并 可 视 化 结 

有 了 HOG 特征 ， 你 就 有 了 查找 图 像 中 物体 的 强大 武器 。 和 任何 事情 一 样 ， 在 某 些 情况 
下 ，HOG 工作 得 不 是 很 好 ， 例 如 ， 当 图 像 中 的 物体 方向 变化 太 大 时 。 你 应 该 对 机 器 学 习 系 
统 进行 适当 的 测试 ， 以 确定 对 手头 问题 的 有 用 性 。 

降 维 

除了 前 一 节 中 的 内 容 扩 展 方 法 ， 在 特征 提取 中 我 们 几乎 都 在 玩 降 维 游 戏 。 有 几 种 技术 常 
用 于 降 维 中 ， 应 用 最 广 的 就 是 主 成 分 分 析 (Principal Component Analysis ，PCA ) 。 

PCA 允许 你 从 一 系列 图 片 中 找 出 “典型 ”的 图 片 ， 用 于 构建 表示 原始 图 像 的 块 。 综 合 
前 几 个 主要 成 分 可 使 你 重新 构建 大 部 分 训练 图 像 ， 而 随后 的 成 分 将 覆盖 较 少 的 图 像 中 的 频繁 
模式 。 新 图 像 的 特征 由 与 主 成 分 图 像 的 “距离 ”产生 ， 因 此 可 以 用 与 每 个 主 成 分 图 像 相 关 
的 一 个 数字 表示 新 的 图 像 。 为 了 使 你 的 机 器 学 习 问 题 有 意义 ， 可 以 使 用 尽 可 能 多 的 主要 成 分 
(principal components ) 。 

PCA 是 线性 算法 ， 不 能 表示 本 质 上 是 非 线 性 的 数据 。 有 许多 PCA 的 拓展 和 其 他 非 线 性 
类 型 的 降 维 方式 。 我 们 比较 有 经 验 的 例子 是 扩散 映射 (diffusion maps ) 。 

















© http://scikit ~ image. org/ docs/ dev/ auto_examples/features_detection/ plot_hog. html#sphx — glr - auto - examples — fea- 


tures - detection — plot - hog - py。 
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自动 特征 提取 

人 工 神经 网 络 领域 发 生 了 伟大 的 复兴 ， 创 立 于 20 世纪 80 年 代 ， 灵 感 来 自 于 大 脑 生物 
学 ,这些 网 络 是 人 工 智 能 领域 的 中 心 , 已 发 展 到 隐藏 
今天 我 们 所 知道 的 机 器 学 习 领 域 。 十 儿 年 前 它们 输入 
被 认为 是 解决 某 些 机 器 学 习 问题 的 有 效 方法 。 但 输出 
因为 它们 难于 配置 和 解释 ， 而 且 存在 过 度 拟 合 的 
问题 ， 计 算 伸 缩 性 也 不 好 ， 所 以 在 实际 应 用 中 成 
为 万 不 得 已 的 选择 。 现 在 机 器 学 习 研 究 领 域 的 几 
个 突破 主要 是 解决 这 些 问 题 。 深 度 神 经 网 络 
(Deep Neural Nets，DNNs) 被 认为 是 许多 机 需 学 
习 问 题 的 前 沿 ， 特 别 是 处 理 图 像 、 音 频 和 声音 的 
深度 神经 网 络 。 图 7-5 所 示 显 示 了 神经 网 络 的 结 
构 布 局 。 

在 深度 神经 网 络 中 ， 每 一 层 可 定义 为 有 益 于 
问题 的 一 系列 新 的 特征 。 这 些 结 点 间 的 权重 定义 
了 这 些 特征 在 下 一 层 上 的 重要 性 ， 以 此 类 推 。 传 统 上 这 个 方法 易于 过 度 拟 合 ， 但 最 近 开 发 的 
技术 人 允许 删除 结 点 间 的 某 些 连接 ， 可 以 在 保持 准确 度 的 情况 下 减少 过 度 拟 合 的 风险 。 

DNNs 的 运用 ， 也 称 为 深度 信念 网 络 ( deep belief networks) 或 深度 学 习 (deep learn- 
ing) ， 是 一 个 相对 新 新 的 领域 。 我 们 长 励 读 者 继续 这 种 开发 。 
























































图 7-5 一 个 简单 的 神经 网 络 。 深 度 神经 
网 络 由 许多 这 样 的 简单 网 络 ( 层 ) 组 成 
(图 片 来 源 于 维基 百科 ) 





























7.3 时 间 序 列 特征 


许多 数据 是 由 现代 数据 收集 系统 收集 的 ， 是 对 一 个 过 程 的 测量 或 时 间 跨 度 上 的 一 系列 过 
程 ， 形 成 一 个 时 间 序 列 (time series) 。 时 间 序 列 数据 是 非常 有 价值 的 ， 因 为 它 开 启 了 主题 随 
时 间 变 化 的 窗口 ， 并 使 机 器 学 习 从 业 人 员 不 再 单纯 地 依靠 静态 的 主题 快照 进行 预测 。 但 充分 
提取 时 间 序 列 数据 的 价值 非 难 困难 。 本 节 介 绍 两 种 常见 的 时 间 序 列 数据 一 一 经 典 时 间 序列 和 
点 过 程 (事件 数据 ) ， 并 详细 介绍 一 些 应 用 广泛 的 时 间 序 列 特征 。 


7.3.1 时 间 序 列 数据 的 类 型 


时 间 序 列 数据 主要 有 两 种 类 型 经典 时 间 序 列 和 点 过 程 。 经 典 时 间 序 列 ( classical time 
series) 包含 随时 间 测 量 的 一 系列 数值 。 典 型 的 这 些 测量 时 间 点 分 布 是 均匀 的 (每 小 时 ， 每 
天 ， 每 周 等 ) ， 但 也 可 以 包含 非 规则 的 样本 数据 。 下 面 是 一 些 经 典 时 间 序 列 数据 的 例子 : 

。 股票 市 场 的 价值 ， 以 十 亿美 元 为 单位 〈 例 如 ， 每 小 时 一 次 ， 每 天 一 次 或 每 周一 次 ) 。 

e 商业 大 厦 或 居民 区 的 日 常 能 耗 。 

e 一 段 时 间 内 ， 客 户 的 银行 账户 存款 额 ， 以 美元 为 单位 。 

e 制造 工厂 中 监视 器 采集 的 一 系列 诊断 信息 〈 例 如 ， 一 时 段 时 间 内 的 不 同 部 件 的 物理 性 

能 测量 或 产量 ) 。 
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男 一 方面 ， 点 过 程 (point processes) 是 随时 间 发 生 的 事件 的 集合 。 与 测量 随时 间 
变化 的 数量 值 不 同 ， 点 过 程 包含 一 系列 离散 的 事件 时 间 蕉 ，( 有 选择 的 ) 外 加 事件 的 元 
数据 ， 如 分 类 或 值 。 因 此 ， 点 过 程 通 常 也 称 为 事件 流 (event streams) 。 点 过 程 的 例子 
如 下 : 

e Web 用 户 的 行为 ， 测 量 每 次 单 击 的 时 间 和 类 型 (这 也 称 为 单 击 流 数据 ) 。 

。 全 球 地 震 ， 台 风 ， 疾 病 爆 发 等 。 

e 顾客 账户 的 个 人 购买 历史 。 

e 制造 商 的 事件 日 志 ， 记 录 员 工 每 次 访问 系统 的 时 间 和 生产 过 程 的 每 一 步 完 成 时 间 。 

聪明 的 读者 或 许 注意 到 了 ， 有 些 时 间 序 列 在 传统 的 时 间 序 列表 示 和 底层 的 点 过 程 之 间 存 
在 一 对 一 的 关系 。 例 如 ， 顾 客 的 银行 账户 既 可 以 看 作 随 时 间 变 化 的 账户 余额 (经 典 时 间 序 
列 ) ， 也 可 以 看 作 一 系列 独立 的 操作 〈 点 过 程 ) 。 这 种 对 应 关系 在 单个 数据 集 上 创建 各 种 类 
型 的 时 间 序 列 特征 时 很 有 用 。 但 这 种 转换 并 不 总 是 可 能 的 ， 例 如 ， 很 难 想象 经 典 时 间 序 列 和 
单个 Web 单 击 事件 之 间 的 关系 。 

为 了 更 具体 一 点 ， 让 我 们 看 一 个 时 间 序 列 数据 的 例子 ， 这 个 例子 既 可 以 看 作 点 过 程 也 可 
以 看 作 时 间 序 列 。 表 7-3 显示 了 旧金山 犯罪 记录 的 前 几 行 ， 这些 数据 采集 于 2003 ~ 2014 年 
(从 https://data. sfgov. org 上 可 以 公开 下 载 ) 。 整 个 数据 集 包 含 了 该 城市 超过 150 万 条 的 犯罪 
记录 。 对 于 每 条 犯罪 记录 ， 包 括 确切 的 犯罪 时 间 、 类 型 和 地 点 。 























表 7-3 旧金山 犯罪 记录 原始 数据 ， 作 为 一 系列 事件 











































































































事件 编号 日 期 时 间 区 域 分 类 
80384498 04/13/2008 0: 54 北部 地 区 醉酒 
80384147 04/13/2008 0: 55 中 部 地 区 非 犯 罪 的 
80384169 04/13/2008 0: 56 BAY VIEW 袭击 
80384169 04/13/2008 0: 56 BAY VIEW 吸毒 
80384153 04/13/2008 0: 57 BAY VIEW 其 他 
80384175 04/13/2008 1: 00 中 部 地 区 袭击 
80384943 04/13/2008 1: 00 中 部 地 区 盗窃 
80392532 04/13/2008 1: 00 INGL ESIDE 盗窃 
80384943 04/13/2008 1: 00 中 部 地 区 次 诈 
80384012 04/13/2008 1: 15 北部 地 区 可 疑 的 OCC 
你 可 以 有 多 种 方式 把 这 个 原始 数据 集成 到 经 典 时 间 序 列 数据 中 : 按 年 份 、 按 月 份 、 按 
周 等 ， 对 于 每 个 地 区 或 类 别 有 不 同 的 时 间 序 列 。 清 单 7-4 显示 了 按 月 份 把 旧金山 犯罪 记 

















录 的 原始 事件 数据 整合 到 时 间 序 列 中 。 按 犯罪 记录 数 / 月 的 时 间 序 列 图 如 图 7-6 所 示 。 数 
据 显 示 自 2003 年 的 每 月 13 ,000 件 犯 罪 记 录 ， 往 后 有 明显 的 下 降 ， 但 近 些 年 犯罪 活动 有 所 
上 升 。 
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图 7-6 ”旧金山 每 月 犯罪 率 的 经 典 时 间 序列 。 这 个 数据 是 由 原始 事件 数据 处 理 得 到 的 。 对 于 机 器 




















学 习 建 模 ， 你 可 以 从 事件 数据 产生 特征 ， 也 可 以 从 经 典 时间 序 列 产生 ,或 者 两 者 都 使 用 












































清单 7-4 把 旧金山 犯罪 事件 数据 转换 成 经 典 时 间 序 列 


import pandas as pd 
from datetime import datetime 
from matplotlib import pyplot as plt 


df =pd.read csv("sfpd incident all.csv") 


df [Month] =map (lambda x: datetime. strptime("/.join(x.split("/)[0::2]), 


CE 


S$ m/s Y"),df [Date]) 
df_ts=df.groupby (Month').aggregate (len){["IncidntNum"] -| 创建 经 典 时 间 序 列 


plt.plot (df_ts.index,df ts.values,'—-k'lw=2) 
lt.xlabel ("Month") 时 间 序 列 绘图 


t.ylabel ("Number of Crimes") 


5 
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7.3.2 时间 序列 数据 的 预测 

就 像 时 间 序 列 数 据 有 两 种 类 型 一 样 ， 对 时 间 序 列 数据 的 预测 也 有 两 种 类 型 。 第 一 种 称 为 
时 间 序 列 预测 (time - series forecasting) ， 基 于 过 去 的 测量 结果 预测 时 间 序 列 将 来 的 值 (或 
将 来 事件 的 时 间 点 ) 。 时 间 序 列 预测 问题 包括 如 下 内 容 : 
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e 预测 明天 的 股票 价格 。 
。 预测 亚利桑那 州 非 尼克 斯 明天 的 气温 。 
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。 预测 丹麦 明年 的 能 源 消耗 量 。 

。 预测 北美 洲 下 一 次 重大 恨 风 的 日 期 。 

前 3 个 任务 是 预测 经 典 时 间 序 列 的 值 ， 而 第 4 个 任务 是 点 过 程 数 据 的 预测 。 每 个 任务 都 
有 一 个 共同 点 ， 那 就 是 对 单个 时 间 序 列 的 值 进 行 分 析 ， 并 预测 将 来 的 值 。 绝 大 多 数 的 时 间 序 
列 预测 的 学 术 报 告 都 集中 于 时 间 序 列 的 分 析 ， 而 对 这 一 点 却 涉及 很 少 (虽然 现在 正在 改 
观 ) 。 对 于 更 详细 的 细节 ， 任 何 谷 歌 或 亚马逊 搜索 都 将 显示 大 量 的 结果 ! 

第 二 种 常用 的 时 间 序 列 预 测 类 型 称 为 时 间 序 列 分 类 或 回归 (time - series classification or 
regression) ， 其 目标 是 对 成 百 上 千 的 时 间 序 列 进行 分 类 (或 在 成 百 上 千 的 时 间 序 列 的 基础 上 
预测 一 个 真实 的 输出 值 ) ， 而 不 预测 单个 时 间 序 列 的 将 来 值 。 此 种 预测 类 型 包括 : 

e 使 用 每 个 用 户 的 在 线 单 击 流 事件 预测 用 户 是 否 会 单 击 特定 的 广告 。 

e 利用 一 定时 期 内 的 QA 检测 结果 确定 下 个 月 的 产品 中 哪 批 产 品 (如 灯泡 ) 最 可 能 不 
合格 。 

e 通过 注册 一 周 内 的 用 户 使 用 App 的 行为 ， 预 测 在 线 App 用 户 的 生命 周期 。 

e 通过 医疗 数据 预测 哪些 病人 将 会 出 现 术 后 并 发 症 。 

与 时 间 序 列 预测 不 同 ， 机 器 学 习 对 时 间 序 列 分 类 和 回归 有 很 大 影响 。 接 下 来 的 小 节 里 主 
要 关注 创建 用 于 分 类 /回归 的 时 间 序 列 特征 ， 但 其 中 很 多 的 方法 也 可 应 用 于 时 间 序 列 预测 。 


7.3.3 ”经典 时 间 序 列 特征 


本 节 将 介绍 几 种 常用 于 经 典 时 间 序 列 的 特征 工程 的 方法 。 我 们 从 最 简单 的 时 间 序 列 度量 
开始 ， 逐 步 介绍 更 复杂 、 更 深奥 的 方法 。 
简单 时 间 序 列 特征 
最 简单 的 时 间 序 列 度量 竟然 忽略 全 部 的 时 间 轴 ， 这 听 起 来 似乎 有 些 荒 唐 ! 在 不 考虑 时 间 
戳 的 情况 下 ， 分 析 测量 的 分 布 可 获得 对 分 类 、 回 归 和 预测 有 用 的 信息 。 为 了 讨论 的 需要 ， 我 
们 列 出 4 条 简单 的 (但 强大 的 ) 测量 指标 ， 只 涉及 时 间 序 列 测 量 的 边缘 分 布 : 
e 平均 值 (Average) 可 以 提示 时 间 序 列 平均 值 趋势 的 平均 值 或 中 间 值 。 
e 扩散 性 〈Spread) 一 一 分 布 的 扩散 性 测量 ， 如 标准 差 、 平 均 绝对 偏差 或 四 分 位 差 ， 可 
以 反映 测量 的 整体 变化 趋势 。 
。 离 群 值 (Outliers) 一 一 落 在 时 间 序 列 测量 正常 范围 之 外 的 频率 (例如 ， 比 平均 大 两 
倍 、3 倍 或 4 倍 的 标准 差 ) ， 在 很 多 情况 下 有 很 强 的 预测 能 力 ， 如 流水 线 中 断 或 事故 
的 预测 。 
e 分 布 性 (Distribution) 一 一 时 间 序 列 测量 的 边缘 分 布 的 高 阶 特性 估计 〈 例 如 ， 偏 差 或 
峰 度 ) ,或 者 更 进一步 ， 对 命名 分 布 进行 统计 测试 (如 标准 或 统一 性 ) ， 在 某 些 情况 
下 比较 有 预测 力 。 
计算 窗口 统计 (windowed statistics) 使 事情 变 得 更 复杂 ， 这 需要 计算 指定 时 间 窗 口内 的 
前 汇总 指标 。 例 如 ， 最 后 一 周 测量 数据 的 平均 值 或 标准 差 有 较 高 的 预测 性 。 你 也 可 计算 窗口 
差异 (windowed differences) ， 指 的 是 这 些 指标 从 一 个 时 间 窗 口 到 下 一 个 时 间 窗 口 的 差异 。 
清单 7-5 给 出 了 计算 这 些 特征 的 代码 样 例 。 
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清单 7-5 ”窗口 统计 和 差异 的 计算 


import pandas as pd 
from datetime import datetime 


import numpy as np 


口 =2014 
windowl = (datetime (2014,3 ,22),datetime (2014,6,21)) | 窗 年 春 


查找 哪些 数据 
点 落 在 窗口 中 





idqx_windqow =np.where (map (lambda x: x> =wWindqowl [0] and x< =winaowl [1 
df_ts. index))[0] 


mean window =np.mean(df_ts.values [idx_window]) 计算 窗口 平均 




















std window =np. std(df_ts.values [idx_window]) 值 和 标准 差 


-= Window2 = (datetime (2013 ,3 ,22),datetime (2013 ,6,21)) 


idx_window2 =np.where (map (lambda x: x> =window2 [0] and x< =window2[ 
df_ts.index))[0] 
mean wdiff =mean window - np.mean (df _ ts.values [idx_window21]) | 
std wdiff =std window - np.stdl(df ts.values [idx_window2]) 


自 2013 年 春 计算 窗口 差异 计算 平均 值 和 标 
准 差 的 窗口 差异 
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], 


1], 





接 下 来 你 要 移 步 学 习 更 复杂 的 经 典 时 间 序 列 特征 了 。 自 相关 (autocorrelation〉 特征 测量 
时 间 序 列 与 其 自身 滞后 版 本 的 统计 学 相关 性 。 例 如 ， 时 间 序 列 的 1 - 自 相关 特征 ， 把 原 时 间 
序列 与 自身 左 移 一 个 时 间 空 格 (没有 重 秋 的 部 分 被 移 除 ) 的 时 间 序 列 相关 联 。 通 过 这 种 时 
间 序 列 的 推移 ， 你 可 以 捕 提 时 间 序列 中 周期 性 的 存在 和 其 他 的 统计 学 结构 。 自 相关 函数 的 形 
状 (在 时 间 湿 后 网 格 上 计算 的 自 相 关 ) 捕获 时 间 序 列 结构 的 本 质 。 在 Python 中 ，StatsModels 
模块 中 包含 易 用 的 自 相 关 函 数 。 图 7-7 所 示 显 示 了 自 相 关 是 如 何 计算 的 ， 并 绘制 了 旧金山 
































犯罪 数据 的 自 相 关 函 数 。 




















傅 里 时 分 析 (Fourier analysis) 是 时 间 序 列 特征 工程 中 最 常用 的 工具 之 一 。 侍 里 叶 分 析 的 目 


标 是 将 一 个 时 间 序列 分 解 为 在 一 系列 频率 上 的 正弦 和 余弦 函数 的 和 ， 这 些 频 率 在 许多 真实 世界 数 








据 集中 是 自然 出 现 的 。 通 过 这 种 分 解 可 使 你 很 快 发 现时 间 序列 中 的 周期 性 结构 。 通 过 使 用 离散 传 



































里 叶 变 换 来 实现 傅立叶 分 解 ， 离 散 傅 立 叶 变换 计算 时 间 序列 的 频谱 密度 (spectral density 











)， 它 在 


每 个 给 定 频率 处 与 正 弱 男 数 相关 一 一 作为 频率 的 函数 。 时 间 序 列 的 分 解 结果 是 其 自身 的 分 量 频谱 
密度 ， 称 为 周期 图 (periodogram) 。 图 7-8 所 示 显 示 了 用 scipy. signal. periodogram 四 数 〈( 几 个 























Python 模块 中 都 有 周期 图 估计 功能 ) 计算 得 到 的 旧金山 犯罪 数据 的 周期 图 。 从 周期 图 中 可 以 
计算 出 各 种 机 器 学 习 特征 ， 如 指定 频率 的 频谱 密度 ， 频 率 段 内 频谱 密度 之 和 ， 或 最 高 频谱 密 

















度 的 位 置 (其 描述 了 时 间 序 列 振荡 的 基本 频率 )。 清 单 7-6 示 出 了 计算 周期 图 和 特 外 
代码 。 
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六 一 原 时 间 序 列 ” 一 滞后 两 个 月 的 时 间 序列 
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自 0.6F 
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滞后 时 间 
图 7-7 上 图 : 原 时 间 序 列 和 滞后 12 个 月 的 时 间 序 列 的 相关 性 定义 了 12 个 月 的 自 相关 性 。 下 图 : SF 犯罪 
数据 的 自 相 关 函 数 。 对 于 短期 时 间 自 相关 性 很 高 ， 表 示 任 何 月 份 的 犯罪 数 与 前 月 的 犯罪 数 有 很 高 的 依赖 性 
清单 7-6 周期 图 特征 计算 


import pandas as pd 


















































t 











import numpy as np 


import scipy.signal | 计算 周期 图 
f, psd =scipy.signal.periodogram(df_ ts, detrend ='linear') 


plt.plot (f, psd,'- ob') 
plt.xlabel (fregquency [1 /month]') 



































plt.ylabel (Spectral Density') 特征 1: 最 高 psd 峰 值 周期 。 
ee 对 于 这 个 数据 ， 应 为 47.0 个 月 
和 攻 | 
少 于 | ; 特征 2， 高 于 1/12 个 月 的 
i eriod psd1 =1. /f [np. a 。 品 
月 的 蝴 period ps [np.argmax (psd)] 频谱 密度 之 和 
密度 


sdens_gt 12m=np. sum(psdl[lf >1. 42]) 





[ww sdens_ ratio 12m=floatl(sdens gt 12m)/np.sum(psd[f < =1. A2]) 
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图 7-8 左 图 : 旧金山 犯罪 数据 的 周期 图 ， 显 示 了 频谱 密度 作为 频率 的 函数 ; 右 图 : 相同 的 周期 图 ， 
只 是 把 X 轴 由 频率 换 成 了 周期 


























几 个 经 典 时 间 序 列 模型 常用 于 时 间 序 列 分 析 中 。 这 些 模型 的 目的 是 把 时 间 序 列 中 的 每 个 
值 描述 成 时 间 序 列 中 过 去 值 的 函数 。 这 些 模 型 本 身 已 经 在 时 间 序 列 预测 中 广泛 应 用 了 几 十 
年 。 现 在 机 器 学 习 成 为 时 间 序 列 数据 分 析 的 主流 ， 它 们 经 常用 于 更 复杂 的 机 器 学 习 模 型 ， 如 
SVM、 神 经 网 络 和 随机 森林 联合 使 用 进行 预测 。 时 间 序 列 模型 的 例子 如 下 : 
e 自 回归 (AR) 模型 (Autoregressive (AR) model) 一 一 时 间 序 列 中 的 每 个 值 被 建 模 
为 最 后 个 值 的 线性 组 合 ,p 是 要 估计 的 自由 参数 。 
e 自 回 归 移 动 平均 (ARMA) 模型 (Autoregressive - moving average (ARMA) model) 一 一 每 
个 值 被 建 模 为 两 个 多 项 式 函 数 的 和 : AR 模型 与 移动 平均 模型 (MA) 的 和 ， 移 动 平 
均 模 型 是 前 4 年 误差 项 的 线性 组 合 。 
。 GARCH 模型 一 一 财务 分 析 中 常用 的 模型 使 用 ARMA ( 自 回 归 滑 动 平均 ) 模型 描述 时 
间 序 列 中 的 随机 噪声 。 
e 隐 马 尔 可 夫 模 型 (Hidden Markov Model，HMM) 描述 从 一 系列 隐藏 状态 中 抽取 
的 时 间 序 列 的 观测 值 的 概率 模型 ， 其 本 身 遵 循 马尔 可 夫 过 程 。 
你 可 以 使 用 这 些 模 型 以 各 种 方式 计算 时 间 序 列 特征 ， 包 括 : 
。 把 每 个 模型 的 预测 值 (和 预测 差异 ) 作为 特征 。 
。 把 模型 的 最 佳 参数 (如 ARMA (p，9) 中 的 P 和 4 的 值 ) 作为 特征 。 
。 计算 模型 适度 拟 合 的 统计 值 〈 如 均 方 误差 ) 并 作为 特征 。 
以 这 种 方式 ， 可 以 实现 经 典 时 间 序 列 模 型 和 最 先进 的 机 器 学 习 方 法 的 混合 ， 获 得 两 全 其 
美的 效果 : 如 果 对 于 某 个 时 间 序列 ，ARMA 模型 预测 得 很 好 ， 那 么 使 用 这 些 预 测 结果 的 机 器 
学 习 模 型 也 会 非常 成功。 但 如 果 ARMA 模型 拟 合 得 不 好 〈 对 于 大 多 数 实际 数据 集 ) ， 则 机 顺 
134 
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学 习 模 型 提供 的 灵活 性 仍然 可 以 产生 高 度 准确 的 预测 。 
7.3.4 事件 流 的 特征 工程 


本 市 将 简要 介绍 事件 流 的 特征 工程 。 如 前 面 清单 7-4 所 示 的 那样 ， 事 件数 据 可 被 转换 
成 经 典 时 间 序 列 。 这 就 使 得 你 可 以 利用 前 两 节 介绍 的 特征 工程 过 程 ， 对 点 过 程 数据 提取 经 典 
时 间 序 列 数据 。 但 对 于 事件 数据 可 提取 附加 的 特征 ， 因 为 它 的 粒度 更 好 。 

与 前 面 7.1. 3 节 描 述 的 窗口 统计 方法 类 似 ， 你 可 以 对 事件 数据 计算 简单 的 窗口 和 统计 差 
异 。 因 为 点 过 程 数 据 中 的 每 个 事件 都 带 有 时 间 礁 ， 因 此 你 可 以 计算 任意 你 想 要 的 时 间 窗 口 ， 
直到 有 足够 的 粒度 。 更 进一步 的 是 ， 诸 如 “最 后 一 次 事件 距 现 在 的 时 间 ”“ 过 去 48h 内 发 生 
的 事件 数 ” 和 “事件 之 间 的 平均 时 间 长 度 ” 等 统计 指标 突然 变 得 可 获得 了 。 

最 后 ， 就 像 经 典 时 间 序列 经 常用 统计 学 模型 ARMA 和 HMM 建 模 一 样 ， 点 过 程 数据 经 常 
使 用 如 泊 松 过 程 和 非 齐 次 泊 松 过 程 进行 描述 。 简 言 之 ， 这 些 模型 描述 的 是 即将 到 来 的 事件 发 
生 率 与 时 间 的 函数 ， 这 可 使 你 预测 到 下 一 次 事件 发 生 时 的 预期 时 间 。 你 自己 随意 、 自 由 地 探 
索 这 些 方 法 吧 ! 与 经 典 时 间 序 列 模型 一 致 ， 从 点 过 程 模型 产生 机 器 学 习 特 征 有 3 种 方式 : 使 
用 模型 的 预测 结果 ， 模 型 的 参数 和 模型 适度 拟 合 的 统计 学 数据 。 



































7.4 总 结 


在 本 章 ， 你 看 到 了 从 文本 和 图 像 中 产生 特征 的 方法 。 可 以 使 用 这 些 特征 进行 机 器 学 习 算 
法 建 模 ， 使 得 这 些 模 型 的 “ 读 ” 或 “看 ”的 能 力 具 有 人 类 的 感知 水 平 。 主 要 内 容 如 下 : 

1) 对 于 文本 数据 ， 你 需要 把 变 长 文档 转换 成 长 度 固 定 的 特征 数 ， 主 要 包括 以 下 方法 : 

。 简单 词 袋 方法 ， 对 每 个 文档 的 特定 单词 进行 计数 。 

e if-idf 算 法 ， 该 算法 考虑 单词 在 整个 语料库 中 出 现 的 频率 ， 避 免 词 典 偏向 不 重要 但 却 
常用 的 词 。 

。 更 高 级 的 主题 建 模 算法 ， 如 潜在 语义 分 析 和 洪 在 狄 利克 雷 分 析 。 

。 主题 建 模 能 够 把 文档 描述 成 一 系列 主题 ， 而 把 主题 描述 成 一 系列 单词 。 除 了 对 机 器 学 
习 的 有 用 性 之 外 ， 还 允许 理解 文档 的 复杂 语义 ， 并 能 够 帮助 构建 高 级 搜索 引擎 。 

e 你 可 以 使 用 Python 的 scikit - learn 和 Gensim 库 进 行 许多 文本 提取 领域 的 有 趣 试验 。 

2) 对 于 图 像 ， 你 需要 把 图 像 的 特性 表示 成 数值 特征 : 

。 可 以 通过 定义 颜色 范围 和 颜色 统计 提取 图 像 的 色彩 信息 。 

e 可 从 图 像 文件 中 提取 潜在 的 有 价值 的 图 像 元 数据 ， 如 挖掘 大 多 数 图 像 文件 的 EXIF 
数据 。 

。 在 某 些 情况 下 ， 需 要 从 图 像 中 提取 物体 和 形状 ， 可 使 用 如 下 方法 : 
> 简单 的 边缘 检测 算法 使 用 Sobel 算 子 和 Canny 边缘 检测 滤波 器 。 
> 复杂 形状 提取 算法 ， 如 方向 梯度 直方 图 (HOG ) 。 
> 诸如 PCA 等 降 维 技术 。 
> 通过 深度 神经 网 络 自 动 提 取 特 征 。 
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3) 时 间 序列 数据 分 为 两 类 : 经 典 时 间 序列 和 点 过 程 。 可 以 从 这 些 数据 估计 过 多 的 机 器 
学 习 特 征 。 
。 对 于 时 间 序 列 数据 ， 机 器 学 习 的 主要 任务 有 两 个 : 
> 单个 时 间 序 列 的 值 预测 。 
> 对 一 系列 时 间 序 列 分 类 。 
。 对 于 经 典 时 间 序列 ， 最 简单 的 特征 包括 计算 时 间 窗 口 统计 汇总 和 窗口 差异 。 
。 更 复杂 的 特征 涉及 时 间 序列 的 统计 学 特性 ， 自 相关 和 傅 里 叶 分 析 工 具 的 使 用 。 
。 各 种 经 典 时 间 序 列 模型 可 用 于 产生 特征 ,包括 AR、ARMA 、GARCH 和 HMM。 
。 对 于 点 过 程 数据 ， 你 可 以 计算 所 有 的 这 些 特征 ， 并 得 到 更 多 的 特征 ， 因 为 数据 的 粒度 
更 精细 。 
。 点 过 程 数据 的 常用 模型 包括 泊 松 过 程 和 非 齐 次 泊 松 过 程 。 





























7.5 本 章 术 语 


本 章 术 语 见 表 7-4。 
表 7-4 ”本章 术语 
术 语 定义 
特征 工程 (feature engineering) 从 输入 数据 中 提取 更 多 有 价值 的 信息 ， 提 高 机 器 学 习 模型 的 预测 准确 度 











自然 语言 处 理 (natural language 





致力 于 计算 机 理解 自然 语言 的 领域 




















processing ) 
词 袋 (bag of words ) 把 文本 转换 成 数字 的 一 种 方法 ， 对 文档 中 的 特定 单词 的 出 现 次 数 进 行 统计 
终止 词 (stop words) 经 常 出 现 但 不 能 作为 特征 的 词 (如 “the”“is” 和 “and” 等 ) 




















绝 大 多 数 为 0， 只 有 少数 数据 时 ， 我 们 称 数据 为 稀 玻 的 。 许 多 NLP 算法 产生 


We 确 玉 数据， 你 需要 在 机 器 学 习 算法 中 使 用 这 些 数据 ， 或 转换 后 使 用 




















ff_idf 算 法 术语 频率 ， 逆 向 文档 频率 。 一 种 使 用 全 语料库 中 的 文本 规范 化 的 词 袋 方法 
> 语义 作 atent semantic a- Dy i 
Be | 在 文档 中 查找 感 兴趣 的 主题 的 方法 ， 并 把 主题 与 一 系列 单词 联系 起 来 








潜在 狄 利 死 雷 分 析 ( latent 


















































i LSA 的 扩展 ， 对 绝 大 多 数 实际 文本 问题 非常 有 效 
irichlet analysis ) 
六 把 原来 的 内 容 扩 展 成 更 多 的 数据 的 过 程 (例如 ,通过 文档 中 的 连接 扩充 内 
内 容 拓 展 (content expansion ) 容 ) 
元 特征 (meta -features ) 不 是 由 内 容 本 身 ， 而 是 由 相关 的 元 数据 提取 到 的 特征 
EXIF 数据 (EXIF data) 图 像 元 数据 的 标准 ， 包 含 照片 的 信息 ( 如 照相 机 制造 商 、 解 析 度 和 光圈 
边缘 检测 (edge detection) 检测 图 像 中 边缘 的 过 程 ， 去 除 大 部 分 图 像 的 噪声 
HOC 方向 梯度 直方 图 。 图 像 中 理解 特定 形状 和 物体 的 特征 方法 
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( 续 ) 


定义 





PCA 





主 成 分 分 析 。 一 种 通过 简单 的 、 典 型 的 图 形 表示 图 像 的 方法 ， 可 以 降低 图 像 
的 维度 。 一 幅 图 像 可 用 两 个 数值 到 两 个 主要 成 分 的 距离 近似 地 表示 ， 而 不 是 用 
100 个 像素 ( 进行 表示 ) 
































深度 神经 网 络 ( deep neural nets) 


人 工 神 经 网 络 的 扩展 。 人 工 神经 网 络 最 近 用 于 机 器 学 习 处 理 音 频 和 视觉 的 领 
域 ， 表 现 不 错 








经 典 时 间 序 列 (classical time se- 


ries) 


随时 间 变 化 的 一 系列 测量 数值 





点 过 程 (point process) 





随时 间 变 化 收集 的 一 系列 事件 ， 每 个 事件 都 有 精确 的 时 间 截 











时 间 序 列 预测 (time - series fore- 


casting ) 


单个 时 间 序 列 的 将 来 值 预测 





周期 图 (periodogram ) 





作为 振荡 频率 的 函数 的 时 间 序 列 的 傅 里 叶 频 谱 密 度 图 ， 该 技术 可 以 提示 振荡 
的 根本 模式 ， 是 一 个 时 间 序 列 数据 有 用 的 特征 工程 工具 
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NLP 高 级 案例 : 


本 章 导 读 


第 8 章 
电影 评论 情感 预测 


@ 使 用 真实 数据 预测 电影 评论 中 的 情感 。 
@ 研究 数据 的 应 用 场景 和 恰当 的 建 模 策略 。 
e@ 用 NLP 特征 构建 初始 模型 并 进行 参数 优化 。 


@ 提取 高 级 NLP 特征 以 提高 准确 性 。 
@ 模型 实用 中 的 规模 和 其 他 部 署 问题 。 


本 章 将 应 用 前 面 章节 学 习 的 高 级 特征 工程 知识 解决 一 个 实际 问题 。 更 具体 一 点 ， 你 将 使 
用 高 级 文本 和 NLP 特征 工程 过 程 ， 构 建 和 优化 一 个 基于 用 户 提交 的 电影 评论 模型 。 























和 以 往 没什么 不 同 ， 首 先 你 应 观察 、 人 研究 数据 集 ， 了 解 特征 和 目标 ， 对 特征 提取 和 








机 器 学 习 算法 的 选择 做 出 最 好 的 决策 。 然 后 ， 用 最 简单 的 特征 提取 算法 构建 一 个 初始 模 
型 ， 观 察 如 何 用 简单 的 几 行 代码 快速 得 到 有 用 的 模型 。 下 一 步 ， 对 特征 提取 和 机 器 学 习 
算法 库 进行 深入 研究 ， 进 一 步 提高 模型 的 准确 性 。 研 究 各 种 部 署 和 规模 问题 ， 对 模型 应 





用 于 实践 得 出 结论 。 


8.1 研究 数据 和 应 用 场景 














在 本 章 ， 你 将 使 用 来 自 Kaggle 竞赛 的 数据 一 一 数据 科学 挑战 网 ,在 这 里 来 自 全 世界 的 
数据 科学 家 对 企业 提出 的 定义 明确 的 问题 进行 解决 并 获取 奖励 。 你 将 处 理 这 些 数据 ， 以 便 学 


习 前 面 章节 开发 的 工具 ， 解 决 实际 的 机 器 学 








习 问 题 。 


本 章 使 用 的 数据 来 自 Kaggle 情感 分 机 (Bag of Words Meets Bags of Popcorm) 竞赛 (网址 
为 www. kaggle. com/c/word2vec - nlp -tutorial ) 。 你 需要 在 Kaggle 上 注册 才能 下 载 数据 ， 但 
这 可 能 是 件 好事 ， 因 为 你 可 能 想 在 大 奖 赛 上 试 试 新 学 到 的 机 器 学 习 技 巧 ! 

在 接 下 来 的 章节 中 ， 我 们 先 描述 一 下 数据 集 ， 包 括 它 每 一 列 的 意义 ， 以 及 数据 是 如 何 产 








生 的 。 下 一 步 ， 我 们 更 进一步 地 提出 数据 的 
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属性 ， 并 对 数据 做 一 些 初 步 的 观察 。 我 们 采用 头 
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脑 风 暴 的 方法 找到 数据 集 可 能 的 应 用 场景 ， 并 对 数据 需求 进行 评估 ， 以 及 每 个 潜在 应 用 场景 
的 具体 实现 。 最 后 ， 选 择 一 个 本 章 要 解决 的 简单 应 用 实例 。 

注意 ， 虽 然 在 本 章 中 我 们 先 介绍 和 研究 数据 ， 然 后 再 指出 可 以 解决 的 实例 ， 但 典型 的 应 
用 却 是 相反 的 顺序 。 通 常 ， 机 器 学 习 者 先 研究 应 用 实例 ， 假 设 或 要 回答 的 问题 ， 然 后 再 搜索 
和 研究 可 以 解决 问题 的 数据 。 这 是 首选 的 方法 ， 因 为 它 强制 从 业者 在 分 析 数 据 集 之 前 ， 好 好 
考虑 应 用 实例 和 所 需 的 数据 。 也 就 是 说 ， 数 据 集 处 理 和 被 要 求 建立 一 些 很 酷 的 东西 并 不 


少见 ! 
8.1.1 数据 集 初探 


我 们 的 数据 集 是 包含 电影 评论 的 网 络 电影 数据 库 IMDb (www. imdb. com) 。 测 试 数 据 包 
含 5 万 条 评论 ， 也 就 是 每 部 电影 的 评论 都 不 超过 30 条 。 对 于 每 条 评论 ， 结 果 变 量 被 编码 为 
二 进 制 特征 ， 如 果 对 IMDb 评论 的 人 ,评分 大 于 6 则 为 1， 小 于 5 则 为 0。 数 据 集中 不 包含 评 
分 为 5 ~6 的 中 间 情 况 。 

这 个 数据 集 的 挑战 是 设计 机 器 学 习 系统 学 习 模式 和 积极 评论 及 消极 评论 的 语言 结构 。 关 
键 是 要 训练 模型 只 从 评论 中 学 习 ， 而 不 是 从 诸如 演员 、 导 演 、 体 裁 和 发 布 年 份 等 环境 数据 中 
学 习 。 或 许 这 些 数据 能 使 模型 预测 得 更 加 准确 ， 但 这 些 在 数据 集中 并 不 存在 。 

除 训练 数据 集 外 ， 还 有 训练 数据 集中 没有 出 现 的 、 独 立 的 、2 ,500 条 电影 评论 作为 测试 
数据 。 原 则 上 ， 这 些 数据 可 用 于 验证 模型 的 性 能 ， 并 可 用 于 评估 模型 应 用 于 实际 环境 中 的 表 
现 。 但 Kaggle 并 未 在 测试 数据 中 提供 标签 。 因 此 ， 你 需要 构建 自己 的 测试 数据 集 ， 将 Kag- 
gle 的 测试 数据 进行 拆 分 ，70% 的 数据 用 于 训练 ，30% 的 用 于 测试 。 

注意 ， 保 证 训练 集中 的 电影 不 出 现在 测试 集中 是 很 重要 的 ?。 如 果 相 同 的 电影 既 包含 
在 训练 集中 又 包含 在 测试 集中 ,那么 你 的 模型 将 会 通过 电影 名 称 确 定好 坏 ， 而 不 是 集中 
通过 积极 和 消极 的 语言 进行 确定 。 而 在 实际 产品 中 ， 若 将 此 机 器 学 习 模 型 应 用 于 新 的 未 
见 过 名 字 的 电影 ， 这 种 从 训练 样本 到 测试 样本 的 下 漏 将 导致 对 新 的 电影 评论 进行 预测 时 ， 
得 出 过 高 的 评价 。 因 此 ， 我 们 推荐 使 用 最 新 的 数据 构建 测试 集 ， 也 就 是 说 ， 测 试 集中 要 
包含 比 训 练 集 更 新 的 数据 。 


8.1.2 检查 数据 


数据 集中 的 每 条 评论 长 度 不 同 ， 从 简单 一 句 话 到 几 页 长 度 的 都 有 。 因 为 评论 是 从 几 十 个 
影评 人 的 评论 中 抽取 的 ， 所 以 评论 的 词汇 变化 也 非常 大 。 关 键 是 构建 机 器 学 习 模型 探测 积极 
评论 与 消极 评论 的 差别 ， 并 准确 地 预测 新 评论 所 包含 的 情感 。 

机 器 学 习 的 第 一 步 是 观察 数据 ， 并 对 其 他 步 又 进行 考虑 ， 如 模型 类 型 和 特征 化 。 在 开始 
这 个 过 程 之 前 ， 先 来 看 一 下 图 8-1 所 示 的 最 短 的 10 条 评论 。 看 下 第 一 行 (ID = 10962 3 ) ， 



































@ 在 训练 集中 ， 没 有 包含 评论 是 针对 哪 部 电影 的 指示 器 。 因 此 ， 我 们 假设 训练 集 数据 按 日 期 预 排序 ， 并 且 对 训练 
集 或 测试 集 数据 进行 分 组 ， 使 得 对 相同 电影 的 评论 集中 在 一 起 。 
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实用 机 器 学 习 


这 条 特殊 的 评论 说 明了 问题 的 微妙 之 处 : 虽然 评论 明确 表示 “这 部 电影 很 糟糕 ， 但 又 说 
“但 也 有 好 的 可 取 之 处 ”。 尽 管 使 用 了 “好 ”这 个 单词 , 但 任何 人 都 很 清楚 地 知道 这 是 一 条 
负面 的 影评 。 这 里 的 挑战 是 教 给 机 器 学 习 模型 ， 即 便 使 用 了 诸如 “好 ”这 样 的 正面 词汇 ， 
但 “这 部 电影 很 糟糕 ”代表 了 一 切 ! 


ID 





10962_3 


这 部 电影 很 糟糕 ,但 也 有 好 的 可 取 之 处 





2331_1 


哪怕 每 晚 只 要 1 美元 ， 我 都 不 会 租 





12077_1 





残忍 的 明 是 一 部 低 成 本 、 很 粮 糕 的 电影 





266_3 


即使 已 经 看 过 了 ， 你 最 好 还 是 选择 保罗 范 霍 文 这 部 电影 





4518_9 








亚 德里 安 . 帕 斯 达 在 这 部 电影 中 很 出 彩 ， 塑 造 了 一 个 迷人 的 女人 








874_1 


元 长 、 无 聊 ， 好 不 容易 看 到 最 后 





3247_10 





我 不 知道 为 什么 喜欢 这 部 电影 ， 总 是 乐此不疲 地 观看 








7243_2 


没有 评论 ， 


很 思春 的 电影 ， 演 技 低 下 








5327_1 











1 分 的 评级 并 不 能 表达 这 部 电影 如 何 沉闷 、 令 人 诅 形 和 如 何 差劲 





2469_10 








图 8-1 训练 集中 选 出 的 最 短 的 评论 。 对 于 每 条 评论 ， 仅 提供 了 ID 、 二 进 制 情感 评分 和 影评 。 





这 是 Hamlet 终极 电影 版 ， 布 拉 纳 没有 消减 什么 ， 毫 无 浪费 情节 

















同样 ， 这 10 个 样本 的 评论 包括 负面 陈述 的 几 个 例子 。 像 “ 乐 此 不 疫 ”和 “ 毫 无 浪费 情 

















节 ” 等 词语 ， 很 明显 表明 电影 质量 是 很 好 的 ， 即 使 组 成 词语 在 意义 上 是 负面 的 。 这 表明 要 
做 好 情感 预测 ， 就 必须 综合 多 个 〈 相 邻 ) 词语 的 意思 。 

看 一 下 其 他 ( 稍 长 ) 的 评论 , 很 明显 ， 典 型 地 包含 元 长 的 、 描 述 性 的 和 华丽 的 辞藻 ， 
语言 讽刺 幽默 。 在 证 明 机 器 从 真实 数据 中 学 习 微 妙 模式 的 能 力 和 在 不 确定 的 情况 下 预测 准确 





性 方面 ， 它 是 不 错 的 数据 集 。 
8.1.3 应 用 场景 有 哪些 

















机 咒 学 习 的 从 业者 ( 非 实 用 ) 往往 一 头 扎 进 问题 里 而 不 考虑 模型 的 实用 性 ， 这 是 错误 


的 





> 


因为 应 用 场景 的 选择 有 助 于 确定 问题 的 结构 和 解决 方案 ， 包 括 以 下 内 容 : 


e 如 何 对 目标 变量 进行 编码 (如 二 进 制 、 多 类 别 还 是 真实 值 )? 


。 优化 哪些 评价 标准 ? 
。 考虑 哪些 学 习 算 法 ? 
。 采用 /不 采用 哪些 输入 ? 





因此 在 机 器 学 习 建 模 之 前 ， 需 要 先 确 定 使 用 数据 集 解 决 什么 样 的 实际 问题 。 
对 3 个 可 能 的 应 用 场景 ,需要 考虑 以 下 内 容 : 
。 为 什么 这 个 应 用 是 有 价值 的 ? 


。 需要 什么 样 的 训练 数据 ? 


。 哪 种 机 器 建 模 策略 更 合适 ? 


。 预测 评价 标准 是 什么 ? 
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e 现 有 数据 是 否 足以 解决 这 个 问题 ? 

基于 对 上 述 问题 的 回答 ， 你 会 选择 一 个 简单 的 应 用 实例 ， 并 解决 它 。 

应 用 实例 1: 新 电影 评级 

电影 数据 集 的 第 一 个 也 是 最 明显 的 应 用 就 是 基于 评论 文本 实现 对 新 电影 自动 分 级 : 

e 为 什么 这 个 应 用 是 有 价值 的 ? 

这 是 决定 周末 看 什么 电影 的 强大 工具 。 对 个 人 评论 打分 是 一 个 方面 ， 但 很 显然 更 有 价值 
的 应 用 是 基于 所 有 的 积极 评论 对 每 部 电影 进行 打分 。 诸 如 烂 番 茄 等 网 站 的 点 击 量 很 大 就 是 因 
为 它们 能 够 对 每 部 电影 进行 可 靠 打 分 。 

。 需要 什么 样 的 训练 数据 ? 

最 基本 的 是 需要 评论 文本 、 每 个 评论 的 情感 指标 和 每 个 评论 的 评价 目标 〈 哪 部 电影 ) 。 
有 了 这 3 个 组 成 部 分 ， 就 能 构建 电影 评价 系统 。 

e。 哪 种 机 器 学 习 建 模 策略 更 合适 ? 

有 两 种 选择 中 把 每 部 电影 看 作 一 个 机 器 学 习 实例 ， 整 合 每 部 电影 的 个 人 评论 ， 把 
评论 情感 归结 为 平均 值 或 多 级 模型 ; @ 把 每 个 评论 看 作 机 器 学 习 实例 ， 基 于 每 个 评论 的 
积极 因素 进行 打分 ， 然 后 对 每 部 新 电影 给 出 一 个 平均 分 。 我 们 倾向 于 方案 @， 因 为 对 每 
部 电影 整合 所 有 的 评论 ， 将 使 机 器 学 习 模 型 产生 不 确定 性 ， 特 别 是 如 果 单 个 评论 是 高 度 
极端 化 的 ! 对 每 个 评论 打分 ， 把 它们 平均 到 “ 原 分 数 ” 中 是 一 种 比较 直接 的 方式 。 

。 预测 评价 标准 是 什么 ? 

假定 对 于 每 个 评论 得 到 一 个 二 进 制 结果 ， 并 且 机 器 学 习 算 法 对 每 个 可 能 的 积极 评论 赋予 
一 个 分 数 ， 然 后 得 到 每 部 电影 的 情感 评分 。 这 里 所 关心 的 是 你 的 评分 与 电影 真实 评分 ( 例 
如 ， 积 极 评 论 的 百分比 ) 的 接近 程度 ， 这 将 引导 你 对 电影 做 出 评价 ， 如 属于 R 级 。 

但 你 可 能 希望 使 用 不 同 的 评价 标准 ， 更 注重 评价 列表 顶部 的 评论 。 事 实 上 ， 你 可 能 更 希 
望 从 电影 评论 列表 的 顶部 找到 周 六 要 看 的 电影 。 因 此 ， 你 需要 另 选 一 个 标准 ， 它 更 专注 于 选 
择 评 价 列表 中 合适 的 顶部 评论 的 比率 。 在 这 种 情况 下 ， 你 将 选择 一 个 度量 ， 如 在 低 假 阳性 
(如 5% 或 10%) 基础 上 的 真 阳性 的 比率 。 

e 现 有 的 数据 是 否 足以 解决 这 个 问题 ? 

很 不 幸 ， 不 能 。 你 已 经 拥有 了 一 切 ， 除 了 每 个 评论 描述 的 是 哪 部 电影 ! 

应 用 实例 2: 对 每 个 评论 从 1 ~ 10 进行 分 级 

第 二 个 可 能 的 应 用 是 ， 基 于 每 部 电影 的 用 户 评论 集 ， 自 动 地 对 每 个 评论 进行 1 ~ 10 
(IMDb 评分 ) 的 评分 : 

e 为 什么 这 个 应 用 是 有 价值 的 ? 

任何 新 影评 都 会 自动 赋 分 而 无 须 人 工 干 预 ， 这 将 节约 IMDb 网 站 维护 和 电影 评论 打分 的 
大 量 人 工 劳动 ， 或 者 ， 如 果 用 户 对 他 们 的 评级 给 出 了 一 个 分 数 ， 则 它 将 基于 用 户 的 评论 文本 
提供 更 确切 的 分 数 。 

。 需要 什么 样 的 训练 数据 ? 

对 于 每 个 评论 只 需要 评论 文本 和 一 个 从 1 ~ 10 的 分 数 即 可 。 

。 哪 种 机 器 学 习 建 模 策 略 更 合适 ? 
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还 是 有 两 种 选择 : 人 把 结果 变量 看 作 实际 值 并 适合 回归 模型 @) 把 结果 变量 看 作 分 类 值 
合 多 分 类 模型 。 此 处 我 们 倾向 于 方案 @， 因 为 它 与 分 类 不 同 ， 把 分 数 当 作 数 值 来 考虑 。 
。 预测 评价 标准 是 什么 ? 
如 果 你 选择 回归 模型 ， 则 典型 的 回归 评价 指标 ， 如 R 或 均 方 误差 是 自然 的 选择 。 
e 现 有 数据 是 否 足 以 解决 这 个 问题 ? 
还 是 不 行 。 你 只 有 每 个 评论 的 布尔 分 类 (正面 的 还 是 负面 的 ) 而 没有 按照 数值 进行 
细 分 。 

应 用 实例 3: 评论 的 定性 划分 

最 后 一 个 应 用 是 从 剩 下 的 评论 中 分 出 积极 的 评论 。 

。 为 什么 这 个 应 用 是 有 价值 的 ? 

本 实例 是 实例 2 的 粗 粒 度 版 本 ， 因 此 每 个 新 的 评论 自动 被 划分 为 积极 的 或 消极 的 〈 而 
不 从 1 ~10 进行 评分 ) 。 这 种 分 类 对 IMDb 来 说 很 有 用 ， 可 以 让 这 些 评 论 出 现在 第 一 页 上 或 
者 (更 有 用 的 是 ) 出 售 给 电影 发 行商 引用 在 他 们 的 海报 上 。 

。 需要 什么 样 的 训练 数据 ? 

仅 需 要 评论 文本 和 二 进 制 的 积极 或 消极 的 指示 器 。 

。 哪 种 机 器 建 模 策略 更 合适 ? 

你 应 该 拟 合 二 进 制 分 类 模型 。 你 可 以 对 每 个 新 评论 的 积极 程度 预 赋 一 个 分 数 。 

。 预测 评价 标准 是 什么 ? 

这 和 你 要 如 何 使 用 你 的 预测 有 关 。 如 果 只 是 自动 地 挑 出 每 周 前 10 的 积极 评论 (例如 ， 
用 于 显示 在 IMDb 第 一 页 上 ) ， 那 么 低 假 阳性 率 (如 1%) 基础 上 的 真 阳 性 率 将 是 一 个 不 错 
的 评价 标准 。 但 如 果 目 标 是 找 出 所 有 的 积极 评论 而 忽略 消极 评论 (如 自动 对 每 个 评论 情感 
进行 标记 ) ， 那 么 诸如 准确 性 或 AUC 会 比较 适合 。 

。 现 有 数据 是 否 足以 解决 这 个 问题 ? 
是 的 ! 你 已 经 有 了 电影 评论 文本 集合 和 二 进 制 情感 变量 。 在 本 章 的 余下 部 分 ， 你 将 
出 该 实例 的 机 器 学 习 解 决 方案 。 
回顾 一 下 ， 你 首先 学 习 了 数据 集 的 基本 细节 : 来 自 IMDb 的 手写 电影 评级 ， 然 后 深入 研 
究 了 数据 中 的 某 些 模式 和 趋势 ， 最 后 ， 考 虑 了 可 能 的 机 器 学 习 应 用 实例 。 对 于 每 个 实例 ， 探 
究 了 机 融 学 习 解 决 方案 的 价值 、 基 本 的 数据 要 求 ， 以 及 如 何 把 解决 方案 组 装 在 一 起 。 

接 下 来 ， 你 将 构建 划分 电影 积极 评论 和 消极 评论 的 机 器 学 习 解 决 方案 。 


并 适 



















































































构建 

















8.2 提取 基本 NLP 特征 并 构建 初始 模型 








因为 电影 评论 集 只 包含 评论 文本 ， 所 以 你 需要 使 用 文本 和 自然 语言 特征 构建 有 意义 的 情 
感 数据 集 。 在 前 面 的 章节 中 ， 我 们 介绍 了 从 文本 提取 特征 的 各 种 方法 ， 本 章 讨 论 在 机 咒 学 习 
和 上 自由 格式 文本 中 的 实际 运用 ， 需 要 经 过 以 下 几 个 步骤 : 

1) 用 词 袋 方法 从 电影 评论 中 提取 特征 。 

2) 用 朴素 贝 叶 斯 算法 构建 初始 模型 。 
142 




















第 8 章 NLP 高 级 案例 : 电影 评论 情感 预测 





3) 用 tf -idf 算 法 提升 词 袋 特征 。 

4) 优化 模型 参数 。 
8.2.1 词 袋 特征 

也 许 你 还 记得 ， 在 前 一 章节 讨论 NLP 特征 时 ， 我 们 对 自然 语言 数据 抽取 特征 采用 了 简 
单 的 词 袋 技术 。 该 方法 分 析 整 个 语料库 的 文本 ， 构 建 所 有 单词 的 字典 ， 并 将 数据 集中 的 每 个 
实例 转换 成 一 个 数字 列表 ， 计 算 文档 中 每 个 单词 出 现 的 次 数 。 为 了 加 深 你 的 印象 ,在 图 8-2 
中 我 们 重 温 一 下 词 袋 技 术 。 














已 定义 词汇 表 














































向 量化 
quick | brown fox | jumps | over lazy 
2 0 1 1 1 1 1 文本 2 
“快速 棕色 狐狸 ” 
的 全 字母 短 句 





图 8-2 词 袋 向 量化 算法 。 从 单词 字典 中 ， 可 将 任何 新 文档 ( 如 图 中 的 文本 1 和 文本 2) 
转换 成 用 于 计算 文档 中 每 个 单词 出 现 次 数 的 数字 列表 


























在 清单 8-1 中 ， 载 和 数据， 进行 7:3 的 训练 - 测试 划分 ， 并 使 用 简单 的 单词 记 数 法 提取 
寺 征 。 此 过 程 很 重要 的 一 点 是 : 测试 集 的 单词 不 能 污染 词 袋 字典 。 这 也 正 是 你 为 什么 要 在 构 
建 向 量词 典 之 前 ， 把 数据 分 成 训练 和 测试 子 集 一 一 为 了 对 不 可 见 的 数据 估计 模型 的 准确 性 。 








清单 8-1 从 电影 评论 数据 集 构建 单词 记 数 特征 


import pandas | 


d=pandas.read csv ("movie reviews /abeledTrainData.tsv",delimiter ="\t") 


d train=dl[:int (split * len(d))] 


Sb 将 数据 分 成 训练 集 和 测试 集 
d test=d[lint((1 - split)*1en(d)):] 


from sklearn. feature_extraction.text import CountVectorizer | 初始 化 单词 记 数 

















vectorizer =CountVectorizer () 向 量化 器 
产生 测试 
集 的 特征 值 features =vectorizer.fit transforml(d train.review) 
test_features =vectorizer.transforml(d test.review) 匹配 词典 并 产生 
l 训练 集 的 特征 值 
i =45000 
Jj 去 10 


words =vectorizer.get_ feature names ()[i:i +10] 
pandas.DataFrame (features[j:j +7,i:i +10].todense(),columns =words) 
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实用 机 器 学 习 





图 8-3 所 示 显 示 了 产生 的 特征 值 的 一 个 子 集 。 
词典 中 的 单词 

















qi lp 
CE CE 
iv 




















数据 集中 的 行 次 数 不 为 0 的 元 素 

图 8-3 一 个 7x 10 的 特征 单词 记 数 的 子 集 ， 你 将 用 于 构建 模型 。 全 部 数据 集 是 一 个 17,500 x 
65 ,005 ( 训练 集中 的 17 ,500 个 文档 乘 以 训练 集中 的 65 ,005 个 唯一 的 单词 ) 的 稀 跑 和 矩阵。 大 部 
分 为 0 的 稀 跑 和 矩阵 是 很 用 的 ， 它 是 基于 词 袋 特征 的 大 多 数 情况 。 在 单词 的 全 词典 中 ,一 个 单 
词 不 可 能 出 现在 特定 的 文档 中 


从 图 8-3 中 可 以 很 清楚 地 看 到 数据 集中 的 值 大 多 数 情况 下 是 0， 只 有 几 个 特殊 情况 。 我 
们 把 这 种 情况 称 为 稀 琉 (sparse) 集 ， 这 是 NLP 数据 集 的 共性 。 这 对 于 在 下 一 节 我 们 讨论 构 
建 实际 模型 预测 影评 情感 之 前 ， 在 机 器 学 习 模 型 中 使 用 特征 集 是 非常 重要 的 。 


8.2.2 用 朴素 贝 叶 斯 算法 构建 模型 


现在 已 经 有 了 合适 的 特征 值 数据 集 ， 你 可 以 像 往常 一 样 构建 模型 了 。 对 于 这 样 高 度 稀 玻 
的 数据 集 ， 有 些 机 器 学 习 算 法 比 其 他 算法 要 好 些 。 更 具体 点 ， 有 些 算 法 内 建 对 稀 玻 数据 的 支 
持 , 无 论 是 内 存 使 用 率 还 是 CPU 占用 率 ， 还 是 时 间 方面 ， 这 些 算法 都 是 普遍 高 效 的。 如果 
观察 一 下 清单 8-1 产生 的 特征 值 ， 你 会 发 现 数据 集中 只 有 0.2% 的 元 素 是 非 0 的 。 使 用 数据 
集 的 密集 表示 法 将 显著 增加 内 存 中 的 数据 量 。 
























































朴素 贝 叶 斯 分 类 器 基础 

朴素 贝 叶 斯 (NB) 分 类 器 算法 是 用 于 文本 分 类 的 机 器 学 习 算 法 ， 与 其 他 更 高 级 的 通 
用 算法 相 比 ， 也 是 很 有 竞争 力 的 。 这 个 算法 因为 将 带 有 “朴素 ”独立 性 假设 的 贝 叶 斯 公 
式 应 用 于 数据 处 理 而 得 名 。 

这 个 假设 使 该 算法 对 于 通常 (稠密 ) 问题 不 太 有 用 ， 因 为 特征 不 是 在 任何 情况 下 都 


是 独立 的 。 对 于 稀 政 文 本 的 特征 ， 这 个 假设 仍然 不 能 成 立 ， 但 在 实际 应 用 中 却 表 现 很 好 。 
NB 分 类 器 是 机 器 学 习 算 法 中 为 数 不 多 的 用 几 行 就 能 推导 出 的 算法 之 一 ， 在 本 栏 中 我 们 
解释 其 中 重要 的 部 分 。 

在 本 章 ， 我 们 的 目标 是 对 一 个 影评 进行 分 类 ， 基 于 每 个 实例 的 特征 x 找 出 评论 是 “好 ” 
(k=1) 还 是 “ 坏 ”( 有 =0) 的 可 能 性 p(C, |x)。 在 概率 理论 中 使 用 贝 叶 斯 公式 可 写作 : 
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PCC xz) ~p(Ci)p(%x |C,) 
p(x% |C,) 是 实例 属于 CC 的 特征 x 的 条 件 概 率 。 因 为 独立 性 假设 (朴素 部 分 ) 没有 特 
征 交 叉 的 可 能 ， 因 此 它 就 变 成 了 每 个 特征 在 给 定 分 类 条 件 下 概率 的 乘积 ; 
PCC |%) ~p(Ci)p(zxl | Ci)p(x2 | Ci)p(x3 | Ci)p(x4 | CD) … 


N 
=p(C1) | | p(x | Cn 
因为 p( Ci) 为 边界 类 分 布 ， 所 有 评论 被 分 成 “好 ”的 和 “ 坏 ” 的 两 种 ， 这 很 容易 从 
数据 中 找到 ， 你 仅 需要 算出 p(x | Ci) 是 多 少 就 可 以 了 。 这 个 表达 式 可 以 读 作 “ 特 定 特征 
在 特定 分 类 下 的 概率 ”。 例如， 你 希望 包含 单词 “great” 的 评论 比 “ 不 好 ”情感 的 评论 
概率 要 高 。 
你 可 能 想 通 过 统计 每 个 分 类 中 特征 (单词 ) 在 所 有 文档 中 出 现 的 次 数 来 计算 这 个 
值 。 产 生 这 种 数量 统计 的 概率 分 布 称 为 多 项 式 分 布 ， 那么 p(x; | Ci ) 将 变 为 ; 
pl | Cs) ~ [lp 
把 这 个 带 入 前 面 的 等 式 ， 并 进行 对 数 化 以 便于 应 用 : 
log[p(Ci lx)] ~ log[p( Ci) [1p] 


=log[p(C,)] + > xilog( pi,) 


=b +wix 

此 处 , 5 就 是 log[p(Ci)] (可 从 数据 中 获得 ),， x 表示 要 预测 的 实例 的 特征 ，wi 是 指 
log(p;) 指 单 词 在 “好 ”和 “ 坏 ” 的 文档 中 出 现 的 次 数 ， 可 从 模型 构建 时 学 习 到 。 
注意 ， 在 计算 中 我 们 忽略 了 各 种 常数 ， 并 且 在 从 头 编 写 算法 代码 时 要 考虑 多 种 实现 细节 ， 
但 在 此 罗列 的 基础 是 正确 的 。 

对 于 稀 蚊 自然 语言 特征 处 理 ( NLP), 一 个 比较 有 用 的 分 类 算法 就 是 朴素 贝 叶 斯 算法 ， 
特别 是 多 项 式 算法 ( 见 上 栏 )。 清 单 8-2 中 的 代码 是 从 清单 8-1 的 特征 构建 模型 。 

清单 8-2 多项式 朴 素 贝 叶 斯 算法 构建 第 一 个 影评 情感 模型 


























from sklearn.naive bayes import MultinomialNB 
modell =MultinomialNB () 
modell1.fit (features,d train. sentiment) 


predl =modell1 .predict proba (test_features) 

为 了 评价 模型 的 表现 ， 定义 清单 8-3 中 的 函数 ， 并 在 初始 模型 中 调用 它 。 本 章 的 准 
确 性 度量 报告 包括 通用 分 类 准确 性 〈 文 档 中 正确 分 类 的 部 分 ) 、 受 试 者 工作 特征 曲线 ROC 
和 对 应 的 AUC (ROC 线 下 面积 ) 数值 。 这 些 已 经 在 第 4 章 介绍 过 ， 并 且 应 用 在 了 许多 实 
例 中 。 
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清单 8-3 ”初始 模型 评价 


from sklearn.metrics import accuracy._score,roc auc_score,roc_curve 
def performance (ly_true,pred,color ="g",ann =True): 

acc =accuracy_scorel(ly_true,pred[:,1] >0.5) 

auc =roc_auc_ scorel(ly_true,pred[:,1]) 

fpr,tpr,thr =roc curvely_true,predl[:,1]) 

Blot {fpr tpr .oolor, linewidths= "3e) 

xlabel ("False positive rate") 


ylabel ("True positive rate") 


LE ns 
annotate("Acc:%$ 0.2f"% acc,(0.2,0.7),size=14) 
annotate("AUC:% 0.2f"% auc,(0.2,0.6),size=14) 


performance(d test.sentiment ,pred1) 


代码 运行 结果 如 图 8-4 所 示 。 

















真正 条 件 下 的 
假 正确 率 表示 88% 的 分 类 是 正确 的 
0.6 Acc 为 0.88 
AUC 为 0.94 
类 
训 04 
0.2 
0.000 02 04 06 08 1.0 
负 正 类 率 




















图 8-4 ”简单 词 袋 模型 的 分 类 性 能 的 ROC 曲线 。 图 中 显示 了 分 类 准确 性 、 评 论 
正确 分 类 部 分 和 AUC 度量 。 准 确 性 表示 你 对 模型 期 望 的 正确 分 类 是 88% ,但 
通过 ROC 曲线 ， 你 可 以 交换 真正 类 率 (TPR) 和 负 正 类 率 (FPR)， 或 者 相 
反 。 如 果 根 据 这 个 分 类 标准 ， 需 要 太 多 的 人 工 干预 ， 就 需要 降低 FPR 的 比率 ， 
但 这 也 会 降低 真正 检测 的 比率 



































观察 图 8-4 发 现 ， 这 个 最 基本 的 模型 表现 还 是 不 错 的 。 对 88% 的 评论 分 类 是 正确 的 ， 
但 你 还 可 以 对 假 正 ( 误 报 ) 和 真正 ?的 比例 进行 调整 ， 这 取决 于 你 倾向 于 更 多 噪声 还 是 
更 好 的 检测 率 。 





”被 模型 预测 为 正 的 负 样 本 。 一 一 译 者 注 
外 ”被 模型 预测 为 正 的 正 样本 。 一 一 译 考 注 
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我 们 把 一 些 新 的 评论 样本 传递 给 向 量化 顺和 模型 进行 新 的 情感 预测 ; 


>>>review= "I 10o 





ve this movie" 


>>>printmodell .predict (vectorizer.transftorm([review])) [0] 
1 
积极 评论 用 1 表示 ， 这 样 看 来 是 正确 的 ， 让 我 们 试 试 另 一 个 : 


>>>review= "This movie is bad" 


>>> printmodell. 


0 


predict (vectorizer.transform([review]))[0] 


消极 评论 用 0 表示 ， 测 试 结果 也 是 正确 的 。 好 的 ， 我 们 给 模型 开 个 小 小 的 玩笑 : 


>>>LTevView = "I wa 
bad." 
>>> printmodell. 


0 


s going to say something awesome,but I simply can' t because the movie is so 


predict (vectorizer.transform([review]))[0] 


不 是 靠 运 气 ， 仍然 是 正确 的 。 或 许 你 可 以 在 消极 评论 中 添加 一 些 积极 的 词语 ? 


>>> review = "I was going to say something awesome or great or good,but I simply can' t be- 


cause the movie is so bad.™" 


>>> printmodell. 


0 





predict (vectorizer.transform([review]))[0] 


不 ， 这 是 一 个 非常 聪明 的 模型 。 单 词 “bad” 应 该 对 分 类 有 很 大 影响 ， 因 此 或 许 你 可 以 
欺骗 模型 ， 把 它 用 在 积极 的 评论 中 . 














>>>review= "It m 
>>> printmodell. 


0 


ight have bad actors,but everything else is good.™" 


predict (vectorizer.transform([review]))[0] 


最 终 ， 你 成 功 欺 骗 了 机 带 学 习 模 型 。 这 个 小 练习 很 有 趣 ，, 但 它 也 证 明了 机 带 学 习 模 型 理 

















解 影评 等 自然 语言 的 能 力 。 在 下 一 节 ， 通 过 研究 更 好 的 特征 参数 和 建 模 方法 ， 对 我 们 简单 的 








单词 计数 特征 进行 改进 。 
8.2.3 {fidf 算法 规范 词 袋 特 征 


在 前 一 章 ， 我 们 介绍 了 tf-idf 算 法 作为 简单 词 袋 特征 的 升级 。 本 质 上 ，tf -idf 算 法 基于 
每 个 单词 在 文档 中 出 现 的 频率 规范 单词 计数 。 主 要 思想 是 ， 常 用 单词 权重 较 小 ， 而 较 少 出 现 
的 单词 权重 较 大 ， 这 使 得 你 可 以 对 数据 集中 罕见 的 单词 进行 深入 挖掘 。 





在 本 节 你 对 特征 
Scikit - Learn 来 说 是 了 
具体 见 清 单 8-4。 














E 应 用 tf - idf 算法 看 是 否 可 以 得 到 更 高 的 准确 性 。 这 个 改变 对 于 
E 常 容易 的 ， 因 为 你 只 需要 把 CountVectorizer 换 成 TfidfVectorizer 即 可 ， 
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清单 8-4 ”在 模型 中 使 用 -idf 特征 


from sklearn. feature extraction.text import TfidfVectorizer 
使 用 TfidfVectorizer 构 造 特征 





vectorizer =TfidfVectorizer () 


features =vectorizer.fit transform(d train.review) 


model2 =MultinomialNB () 这 些 特征 对 
model2.fit (features,d train. sentiment) 相 素 贝 叶 斯 算法 
ew 






































) ) | 进行 训练 并 预测 


Dred2 =model2 .predict_ proba (vectorizer.transforml(d test.revi 


performance(d test. sentiment ,Dred2 ) 
结果 图 形 化 





tf-idf 模型 的 性 能 如 图 8-5 所 示 ， 你 可 以 看 到 tf -idf 特征 是 如 何 轻 微 提高 模型 准确 度 
的 ， 尤其 是 ROC 曲线 表明 它 在 避免 负 正 率 方面 表现 更 佳 。 假 定 你 有 数 不 清 的 评论 需要 分 出 
不 好 的 以 供 人 工 审核 。 较 低 的 负 正 率 会 使 实际 上 积极 的 评论 到 达 人 工 审 核 的 数量 减少 ， 因 此 
他 们 可 以 很 快 地 完成 工作 。 





ff-idf 模 型 的 
表现 更 好 


Acc 为 0.89 


AUC 为 0.96 











“0.0 0.1 0.2 0.4 0.5 


03 
负 正 类 率 
一 tf-idf 模 型 一 词 袋 模型 
图 8-5 tf-idf 模 型 的 ROC 曲线 在 词 袋 模型 之 上 。 可 以 看 出 在 分 类 准确 性 和 AUC 方面 都 有 些 
许 提 高 。tf -idf 模型 尤其 是 在 低 FPR 方面 有 了 提高 ; 对 于 相同 数目 的 正确 分 类 的 评论 ， 模 型 的 
负 正 类 率 更 低 。 如 果 人 工 干 预 主要 是 在 分 类 阶段 ， 则 最 好 使 用 较 低 的 噪声 进行 筛选 




























































































无 论 是 t-idf NLP 特征 提取 算法 还 是 朴素 贝 叶 斯 模型 算法 ， 都 可 以 对 数据 集中 的 特定 
细节 进行 调整 。 我 们 把 这 些 可 调整 特性 称 作 超级 参数 (hyperparameters) 。 这 源 于 一 个 事实 ， 
那 就 是 模型 的 变量 ( 即 特征 ) 可 以 被 看 作 参 数 ， 而 这 些 算 法 的 参数 工作 在 较 高 的 层次 上 。 
在 接收 你 的 模型 性 能 之 前 ， 尝 试 这 些 参数 不 同 的 值 是 非常 重要 的 ， 这 也 是 下 一 节 的 主要 


话题 。 
8. 2.4 优化 模型 参数 


查找 一 个 模型 最 优 参数 的 最 简单 方法 ， 是 用 不 同 的 参数 构建 一 系列 模型 ， 对 感 兴趣 的 性 
能 度量 进行 观察 。 但 问题 是 ， 你 不 能 保证 参数 间 是 相互 独立 的 一 一 改变 一 个 参数 可 能 会 影响 
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其 他 参数 的 优化 。 解 决 这 个 问题 的 “粗暴 ”的 办 法 是 创建 一 个 任意 参数 组 合 的 模型 。 但 如 
果 参 数 太 多 ， 这 将 会 变 得 很 棘手 ， 特 别 是 花 大 量 的 时 间 构 建 的 模型 只 能 用 一 次 。 我 们 在 第 4 
章 讨论 了 一 些 解 决 方案 ， 但 你 会 吃惊 地 发 现 ， 很 多 机 器 学 习 的 从 业者 还 是 乱 “ 粗 暴 ” 的 办 
法 来 解决 问题 。 你 需要 建立 一 种 直觉 ， 哪 些 参数 更 独立 ， 哪 些 参数 对 数据 集中 的 哪些 类 型 影 
响 较 大 ? 对 于 这 个 练习 ， 有 3 个 参数 需要 优化 : 两 个 t -idf 参数 (max_features 和 min_df) 
和 一 个 朴素 贝 叶 斯 参数 (nb_alpha) 。 

首先 ， 你 需要 一 个 可 重复 调用 的 函数 ， 用 它 来 构建 模型 ， 并 返回 参数 和 感 兴趣 的 度量 指 
标 (这 里 是 AUC) 。 清 单 8-5 定义 了 这 个 函数 。 


清单 8-5 ”参数 优化 的 模型 构建 方法 





























def build model (max_features =None,min df =1,nb alpha =1.0): 
vectorizer =TfidfVectorizer (max_features =max_features,min df =min _ df) 
features =vectorizer.fit transforml(d train.review) 
model =MultinomialNB (alpha =nb_alpha) 
model.fit (features,d train. sentiment) 
pred =model.predict proba (vectorizer.transforml(d test.review)) 
return { 
"max_features":max_features, 
Wm 
"nb_alpha":nb_alpha, 
"auc":roc_ auc_ scorel(d test.sentiment,pred[:,1]) 
} 


有 了 清单 8-5 所 示 的 可 重复 构建 模型 的 函数 ， 你 可 以 更 进一步 地 定义 参数 所 有 可 能 的 
值 (随机 选取 或 通过 直觉 并 连续 运行 了 ， 见 清单 8-6。 
清单 8-6 ”参数 优化 循环 


from itertools import product 
param values={ 
"max_features":[10000,30000,50000 ,Nonel], 
"min df":[1,2,3], 定义 想 要 优化 





"nb_alpha":[0.01,0.1,1.0] 的 参数 值 
} 
results=[] 
for p in product (x* param values.values ()): ~ 对 每 个 参数 值 组 合 


res =build model (* * dict (zip (param values. keys (),p))) 
results.append ( res ) 构建 模型 并 保存 结果 
print res 

你 要 优化 的 参数 如 下 : 

计 -idf 算 法 创建 的 最 大 单词 列 数 。 通 过 这 个 参数 ， 可 以 知道 所 有 单词 
数量 可 达 65 ,000 列 ， 因 此 你 可 以 在 范围 内 尝试 一 个 近似 的 数 。None 表示 使 用 全 部 
单词 。 

e min_df 一 一 在 数据 集中 单词 出 现 的 最 少 次 数 ， 低 于 这 个 值 的 单词 将 不 会 出 现在 特征 集 
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® max_ features 











中 。 这 是 潜在 的 参数 依赖 性 的 例子 ， 因 为 字典 中 的 单词 数 (还 有 max_features) 可 以 
通过 改变 min_df 而 改变 。 

e nb_alpha 一 一 朴素 贝 叶 斯 分 类 器 的 a (平滑 ) 参数 。 在 这 个 特定 的 机 器 学 习 算法 中 ， 

这 是 一 个 唯一 可 调整 的 参数 。 这 个 值 的 选取 需要 深入 研究 参数 的 意义 和 其 他 情况 下 别 
人 是 如 何 使 用 的 。 

清单 8-6 最 后 一 个 需要 说 明 就 是 itertools 模块 中 product 函数 的 用 法 便于 人 处理 数据 
的 Python 函数 的 集合 。 该 函数 以 聪明 的 方式 产生 一 组 列表 的 所 有 组 合 ( 笛 卡 儿 积 )。 清 
单 8-6 代码 的 运行 结果 如 图 8-6 所 示 。 

图 8-6 所 示 显 示 了 部 分 优化 结果 。 对 于 36 种 不 同 的 值 的 组 合 ， 只 有 3 个 参数 ， 因 此 运 
行 时 间 不 超过 10 min， 因 为 朴素 贝 叶 斯 算法 的 训练 时 间 是 相对 较 短 的 ， 但 你 可 以 想象 要 尝试 
更 多 的 参数 和 参数 值 ， 则 优化 时 间 会 很 长 。 另 一 个 发 现 优化 参数 的 技巧 是 ， 以 宽泛 的 参数 值 
开始 ， 然 后 对 不 同 参 数值 的 优化 运行 结果 进行 深入 研究 。 从 图 8-6 中 可 以 明显 看 出 不 同 的 
参数 是 如 何 提升 模型 的 AUC 的 。 使 用 下 面 的 值 在 第 27 次 循环 时 结果 最 佳 : 

e max_features 一 NaN (默认 为 所 有 单词 ) 。 

e min df{ 一 1 (默认 ) 如 

e nb_alpha 一 0. 01。 







































































AUC max_ features nb_alpha 


0.955985 | 30000 
0.970304 | 50000 
0.967335 | 50000 
0.963369 | 50000 
0.968388 | 50000 
0.965254 | 50000 


0.962516 | 50000 


0.958776 | 50000 
0.957700 | 50000 
0.956112 | 50000 


(0.973386 小 NaN 1 Co 
C0.973386 » 











第 27 次 循环 的 
AUC 值 最 高 


图 8-6 参数 优化 循环 中 的 部 分 结果 。 第 27 次 循环 中 的 参数 组 合 产生 的 结果 最 好 

因此 ， 有 趣 的 是 ， 你 还 可 以 通过 寻找 贝 叶 斯 算法 a 参数 更 好 的 值 进一步 提升 模型 性 能 。 
证 我 们 看 一 下 当 改变 某 个 参数 (其 他 参数 固定 ) 时 AUC 是 如 何 变化 的 ， 如 图 8-7 所 示 。 

其 中 ,每 幅 图 只 是 AUC 进化 的 一 个 方面 ， 因 为 你 需要 一 个 四 维 图 形 绘制 所 有 参数 的 
AUC 国 数 。 但 仍然 可 以 观察 模型 对 于 每 个 值 的 改变 的 反应 。 例 如 ，max_features 值 越 大 ， 结 
果 越 好 〈 最 大 可 能 值 胜 出 ) ，min_df 值 越 小 越 好 (最 小 的 可 能 值 胜出 )， 最 后 ，nb_alpha 值 
越 小 越 好 。 因 为 没有 理论 上 的 下 限 ， 这 就 提示 你 可 以 以 更 低 的 值 进行 男 一 次 运行 ， 我 们 把 这 
作为 你 的 练习 〈 但 据 我 们 所 知 ， 已 经 找 不 到 更 好 的 值 了 ) 。 
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0.973[r II 0.974 
0.970r 0.972 
0.965r 0.970r 
0.960r 0.968r 
0.955r 0.966 
0.950r 0.964 上 
0.945 + 4 + + + + + 0.962 + 1 1 
10,00015,000 20,000 25,000 30,000 35,000 40,00045,000 50,000 1.0 站 3 2.0 2;3 3.0 
a) b) 
0.974 
0.972r 
0.970r 
0.968r 
0.966r 
0.964r 
0.962r 
0.960r 
0.958 ! + + + 
0.0 0.2 0.4 0.6 0.8 1.0 


9) 
到 8-7 ”通过 改变 特征 的 3 个 参数 和 机 器 学 习 算 法 来 提升 AUC。 你 可 以 看 到 : max_features 越 高 AUC 
越 好 ，min_df 越 低 AUC 越 好 ，nb_alpha 越 低 AUC 越 好 。 但 这 不 能 说 明 最 好 的 值 组 合 在 一 起 就 是 最 佳 
参数 组 合 。 通 过 我 们 的 运行 结果 ， 最 佳 参数 组 合 是 max_features = NaN (所 有 单词 ， 默认)，min_df =1 
(最 小 值 ， 默 认 ) 和 nb_ alpha =0.01 (提升 的 主要 原因 ) 
a) AUC 与 max_features b) AUC 与 min_df ec) AUC 与 nb_alpha 


图 8-8 示 出 了 优化 模型 的 ROC 曲线 。 无 论 是 从 度量 方面 还 是 ROC 上 的 点 ， 都 能 看 出 模 












































1.0 
0.9 

真 0 | Acc 为 0.92 

正 AUC 为 0.97 

率 07 








Sn 


0.1 0.2 0.3 0.4 0.5 
负 正 率 
一 优化 模型 一 娘 -idf 模 型 一 词 袋 模型 
图 8-8 优化 模型 与 前 面 模型 的 ROC 曲线 比较 。 在 我 们 测试 集 评估 中 ， 这 
个 模型 貌似 是 最 好 的 (就 曲线 上 的 每 个 点 来 说 ) ， 准 确 率 也 有 了 显著 提高 
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型 性 能 的 实质 性 提升 。 这 是 一 个 通过 调整 超级 参数 获得 更 强 预测 能 力 的 很 好 的 例子 。 这 里 需 
要 说 明 的 最 后 一 件 事 是 : 你 可 以 想象 ， 新 的 模型 参数 选择 反 过 来 会 影响 特征 和 建 模 算 法 
(例如 ， 单词 计 数 还 是 萎 -idf) 的 性 能 ， 并 且 每 个 算法 会 有 新 的 潜在 的 参数 需要 优化 。 从 最 
严格 的 情况 来 说 ， 你 需要 优化 算法 和 参数 的 所 有 选择 ， 但 这 在 实际 应 用 中 是 不 可 能 的 ， 这 里 
折 中 的 方法 是 里 程 碑 式 优化 。 例 如 ， 首 先 修正 使 用 的 NLP 算法 ， 然 后 是 机 器 学 习 模 型 ， 再 
优化 这 些 参数 。 你 的 项 目 可 能 需要 不 同 的 里 程 碑 一 一 在 你 构建 后 续 的 机 器 学 习 模 型 时 ， 要 不 
断 地 积累 经 验 。 

图 8-8 所 示 的 ROC 曲线 总 结 了 我 们 最 初 的 建 模 经 验 。 从 基本 的 算法 加 上 很 少 代码 ， 你 
已 经 构建 了 一 个 准确 率 较 高 的 自然 语言 处 理 模型 。 在 下 一 节 ， 将 对 特征 工程 和 建 模 进行 更 进 
一 步 的 研究 ， 并 看 到 将 这 样 一 个 模型 部 署 到 实际 应 用 系统 中 的 各 个 方面 。 


8.3 高 级 算法 和 模型 部 署 的 考虑 


在 前 一 部 分 ， 我 们 关注 了 采用 相对 简单 的 特征 和 机 器 学 习 算 法 构建 学 习 模型 。 这 些 模型 
对 我 们 来 说 ， 准 确 性 已 经 足够 了 。 你 可 以 尝试 下 一 个 优化 模型 的 想法 ， 但 在 时 间 花 费 和 准确 
性 提高 带 来 的 潜在 价值 之 间 总 有 一 个 权衡 。 我 们 鼓励 对 任何 一 部 分 提高 以 进行 控制 ,例如 ， 
节约 人 工 审阅 时 间 ， 以 及 你 能 负担 得 起 多 少 钱 。 如 你 所 见 ， 我 们 的 第 一 个 模型 在 许多 情况 下 
可 以 理解 评论 情感 ， 并 足以 作为 一 个 好 模型 的 开端 。 如 果 有 可 能 ， 把 一 个 准确 性 稍 低 的 模型 
应 用 到 产品 上 ， 并 从 系统 中 得 到 鲜 活 的 反馈 ， 是 一 件 更 有 意义 的 事情 。 

让 我 们 抛 开 这 些 建议 ， 进 一 步 优化 这 个 模型 。 下 一 步 ， 你 将 看 到 通过 新 的 自然 语言 建 模 
技术 产生 特征 值 ， 那 就 是 由 Google 开发 的 word2vec。 当 提取 了 word2vec 特征 值 之 后 ， 你 将 
转 癌 随机 森林 算法 以 更 好 地 支持 这 些 新 特征 。 


8.3.1 word2vec 特征 


一 个 相对 较 新 的 处 理 自然 语言 的 方法 是 Google 开发 的 word2vec 项 目 。word2vec 本 身 是 
一 个 机 器 学 习 模型 ， 由 深度 神经 网 络 构建 。 神 经 网 络 是 机 器 学 习 的 一 个 分 支 ， 是 机 器 学 习 的 
最 新 成 果 ， 特 别 是 在 人 类 相关 处 理 方面 ， 诸 如 自然 语言 、 语 音 和 图 像 识别 。 

要 构建 你 自己 的 训练 集 word2vec 模型 ， 你 将 使 用 Python 的 Gensim NLP 库 ， 内 置 了 绝 好 
的 word2vec 实现 。 在 前 面 的 第 7 草 中 ? 已 经 在 LDA 中 用 过 Gensim, LDA 是 类 似 于 word2vec 
的 另 一 主题 模型 。 

使 用 Geusim 需要 对 建 模 用 的 文档 进行 一 些 额外 处 理 ， 因 为 Geusim 工作 于 句子 《已 分 角 
的 一 系列 单词 ) 而 不 是 任意 文档 。 这 需要 更 多 的 前 期 工作 ,但 也 更 好 地 理解 了 模型 的 输入 。 
在 清单 8-7 中 ,构建 了 别 除 终止 词 和 标点 符号 ， 并 转换 成 小 写 的 函数 。 注 意 ， 这 在 Scikit - 
Learn 单词 向 量化 器 中 已 经 自动 完成 了 。 我 们 可 以 使 用 类 似 功能 或 Python NLTK 自然 语言 处 
理工 具 完成 这 个 功能 ， 但 为 了 教学 需要 ， 我 们 还 是 选择 自己 编写 。 


清单 8-7 文档 划分 











































































































import re,string 
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stop_ words =set ({ all ,"shé 11","don t",being'over'through, 

' yourselves ' itg' beforé ,"hé s","wheri s","weé ve",had', should ， 

me gd to only "there Ss" those ' under Oure ' has ; 

"haven t",do ,themh hig ,"they 11",very ,"whd s","they d", 
cannot ,"you ve",they ,not ' during',yourself ',him',nor, 

"weé 11",did ,"they ve", thig', shé ,eact ,"won t",whereé, 

"nstrn tv, "Ls tr" ll why ss becauset ,"voul ddoing Some ; 

"up'aré' further ',ourselveds ',out',what ' for',whileé, 

"wasni t", does ,"shouldn t",aboveé', betweern!', beé ', weé ', whd ， 

"you few were here ,hergk ,"areri t",by bot about ',would, 
of 'could'against ,"i gd","wereri t","i m",or ,"carn t", owr ， 

' into whom ' dowt ,"hadnii t","coulgdn t" your aceg t", from ， 
mow s",hert'", theirt ,"it s™ there' been' why few' tord ， 

' themselves 'was until ,more himse1t ,"whereé s","i1 ve",with, 
"digdni t","what s",but',herself ,than ,"heré s",hé',meé, 

"they re",myself ', thesé ,"hasti t",below'ought ' theirs ,my ， 
"woulgdn t","wé d",and', theri'ig',am'it'ar'as'itself, 

"at'haveé'in'any'if'againi'nd'that ',when', samé ， 

' how'.othert " whicl’, you "shan t", our rafter "et smost , 

" Sue 6 , "he 11 a ot he a" ye "yeu 11" Ss0 

"we re","sheé s",thé ,"that s",havindg', onceé ]) 


def tokenize (docs): 
pattern=re.compile({[\W_] +'re.UNICODE) 


sentences = [] 3 、 
全 部 转换 成 小 写字 母 
for d in docs: 后 把 文档 分 隔 成 单词 


sentence =d.lower().split(" ") 
sentence = [pattern.subl("w) for w in sentence] 


sentences.append( [w for win sentence if wnot in stop words] ) 


return sentences 删除 任何 非 单 词 字符 ， 
删除 英语 终止 词 如 标点 符号 


通过 这 个 函数 ， 你 可 以 标记 任何 文档 列表 ， 现 在 就 可 以 构建 自己 的 word2vec 模型 了 。 
要 获取 更 多 关于 该 算法 的 参数 信息 ， 请 参考 Censim 文档 9 。 
word2vec 模型 的 构建 代码 见 清单 8-8。 


清单 8-8 ”word2vec 模型 





from gensim.models.word2vec import Word2Vec 切 分 函数 产生 句子 
sentences =tokenize(d train.review) 


model =Word2Vec (sentences,size =300,window =10,min count =1, 








sample =le -3,workers =2) 构建 并 规范 
ek word2vec 模 型 
model.init_ sims (replace =True) 


print model ['movie'] 
#>array ([0.00794919,0.01277687,，, -0.04736909,，, -0.02222243,...1) 


打印 word2vec 产 生 的 
单词 movie 的 向 量 











© https://radimrehurek. com/ gensim/ models/ word2vec. html。 
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你 可 以 看 到 一 个 单词 是 如 何 表示 成 一 个 向 量 (这 里 是 300 个 数字 的 向 量 ) 的 。 为 了 使 
用 word2vec 模型 产生 机 顺 学 习 算 法 的 特征 ， 需 要 将 评论 转换 成 特征 向 量 。 如 果 你 知道 如 何 
把 单个 单词 转换 成 向 量 ， 那 么 一 个 简单 的 想法 就 是 把 评论 文档 (单词 的 列表 ) 表示 成 文档 
中 所 有 单词 的 平均 向 量 。 清 单 8-9 中 ， 你 所 构建 的 函数 就 是 做 这 个 工作 的 。 


清单 8-9 word2vec 特征 











def featurize_w2v (model,sentences): 
f=zZeros((len(sentences),model.vector_size)) 
for i,s in enumerate (sentences): 
forwins: 
tos 
vec =model [w] 


except KeyError: 


continue 
f[i,:] =f[i,:] +vec 
fF [dE ye (Ss) 
returnf 





现在 需要 为 你 新 产生 的 word2vec 特征 构建 模型 了 。 你 可 能 会 想起 8.2. 2 节 讨论 的 机 器 
学 习 算法 ， 朴 素 贝 叶 斯 分 类 器 对 稀 杖 数据 工作 得 很 好 ， 但 不 太 适 合 稠密 数据 。word2vec 已 经 
将 大 约 65 ,000 个 确 朴 单词 记 数 特征 转换 成 了 只 有 几 百 个 的 笛 密 特征 。 深 度 学 习 模型 已 经 学 
习 了 模型 的 高 级 主题 ( 见 清单 8-8) ， 每 个 文档 可 被 看 作 若 干 主题 的 组 合 ( 见 清单 8-9)。 
8.3.2 随机 森林 模型 

前 面 介绍 的 多 项 式 朴素 贝 叶 斯 算法 不 适合 word2vee 特征 ， 因 为 它们 不 能 被 认为 是 由 多 
项 式 分 布 产生 的 。 你 仍然 可 以 用 其 他 分 布 使 用 朴素 贝 叶 斯 算法 ， 但 需要 依靠 我 们 的 老 有 
友 一 随机 森林 算法 。 在 清单 8-10 中 ， 你 将 对 word2vee 特征 ， 构 建 100 棵 树 的 随机 森林 模 
型 ， 并 在 测试 集 上 分 析 它 的 性 能 。 

清单 8-10 ”对 word2vec 特征 构建 随机 森林 模型 
























































features_w2v =featurize w2v (model,sentences) 


model4 =RandomForestClassifier(n estimators =100,n jobs= -1) 


model4.fit (features w2v,d train.sentiment) 


test_sentences =tokenize(d test.review) 
test_features_w2v = featurize _w2v (model,test_sentences) 
pred4 =model4.predict proba (test_features_w2v) 


performance(d test. sentiment,pred4,color = "c") 


word2vec 的 随机 森林 模型 的 性 能 与 之 前 的 模型 比较 如 图 8-9 所 示 。 从 图 中 可 以 看 到 ， 
对 于 你 选择 的 度量 指标 ， 新 模型 的 准确 性 是 如 何 提高 的 ， 并 且 超 过 了 ROC 曲线 上 的 所 
有 点 。 
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-一 过 








Acc 为 0.93 
AUC 为 0.98 


070F 
1 
0.65r1|| 











1 
00 一 000 05 
负 正 率 
一 一 一 word2vec 模 型 一 优化 模型 一 娘 -idf 模 型 一 词 袋 模型 
图 8-9 word2vec 模型 与 前 面 模型 的 ROC 曲线 。 可 以 看 出 ， 所 有 ROC 曲线 的 
值 都 有 所 提高 ， 并 反映 在 准确 性 和 AUC 数值 上 


鉴于 图 8-9 所 示 的 最 终 模型 的 表现 ， 你 已 经 对 性 能 十 分 满意 并 准备 停止 优化 工作 。 但 
你 可 以 进一步 尝试 其 他 事情 以 提高 准确 性 。 即 使 是 人 也 不 可 能 对 所 有 评论 的 情感 进行 正确 的 
分 类 ， 可 能 存在 不 正确 的 标记 或 者 某 些 评论 的 情感 难于 理解 。 

但 模型 可 以 做 得 比 现在 更 好 。 我 们 将 把 这 些 留 给 你 ， 亲 爱 的 读者 ， 这 最 初 的 事情 列表 ， 
大 体 上 以 优先 级 为 序 : 

。 使 用 未 标记 数据 构建 更 好 的 主题 模型 。 

Kaggle 竞赛 网 的 数据 部 分 包含 未 标记 的 评论 集合 ， 可 用 于 模型 训练 。 因 为 你 正在 构建 的 
是 监督 学 习 模 型 ， 它 们 看 起 来 不 太 有 用 。 但 因为 你 正在 构建 的 word2vec 模型 ， 需 要 学 习 IM- 
Db 电影 评论 的 细微 差别 ， 特 别 是 不 同 单词 和 概念 之 间 的 联系 ， 这 将 有 利于 你 在 建立 模型 之 
前 ， 使 这 些 特 征 进入 你 的 训练 集 ( 带 有 标记 的 ) ， 从 而 提升 word2vec 模型 的 性 能 。 

。 优化 参数 。 

对 于 本 章 最 初 的 模型 ， 在 找到 更 好 的 超级 参数 值 之 后 ， 模 型 性 能 有 了 极 大 的 提高 。 因 
此 ， 我 们 介绍 了 新 的 NLP 模型 (word2vec) 和 机 器 学 习 算 法 〈 随 机 森林 ) ， 还 有 很 多 新 的 参 
数 需要 优化 。 

。 检测 短语 。 

Gensim 库 包含 对 文本 中 检测 短语 的 支持 ， 如 “纽约 ”， 这 在 我 们 只 切 分 单词 的 函数 中 是 
没有 的 。 英 语 倾向 于 包含 多 词 概 念 ， 因 此 在 你 的 句子 产生 函数 中 包括 这 一 点 是 很 有 意思 的 。 

e 多 语言 处 理 。 

如 果 不 能 确定 所 有 评论 都 出 自 同一 语言 (在 这 里 是 英语 ) ， 那 么 你 必须 在 模型 的 各 个 环 
节 中 进行 多 语言 处 理 。 首 先 ， 你 需要 先知 道 评论 出 自 哪 种 语言 ， 或 者 是 否 需 要 进行 语言 检测 
(有 性 能 不 同 的 几 个 库 可 用 ) 。 然 后 ， 你 需要 在 切 分 过 程 中 使 用 此 信息 ， 以 便于 使 用 不 同 的 
终止 词 和 标点 符号 。 如 果 很 不 地 ， 那 么 你 还 可 能 处 理 结构 完全 不 同 的 句子 ， 如 中 文 文本 ， 这 
样 你 就 不 能 仅 赁 空格 进行 分 词 。 

现在 假定 你 对 模型 已 十 分 满意 。 如 果 这 是 一 个 实用 模型 ， 则 你 要 把 模型 做 成 产品 。 根 据 
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不 同 的 实际 情况 ， 需 要 考虑 以 下 两 个 方面 : 

e 你 有 多 少 训练 数据 ， 且 更 多 的 训练 数据 是 否 使 模型 更 好 ? 

这 将 影响 机 器 学 习 算 法 的 选择 ， 因 为 你 需要 选择 对 训练 数据 规模 性 好 的 模型 。 例 如 ， 朴 
素 贝 叶 斯 分 类 需 支 持 部 分 训练 ， 也 称 作 在 线 学 习 (online learning) ， 而 随机 森林 算法 则 很 难 
适应 大 数据 集 。 

。 预测 容量 如 何 ， 是 否 需要 实时 预测 ? 

我 们 下 一 章 将 进一步 讨论 关于 规模 化 预测 的 容量 和 速度 问题 ,但 这 是 算法 选择 和 基础 架 
构 部 署 的 结果 。 


























8.4 总 结 


在 本 章 你 学 习 了 从 头 到 尾 的 实用 机 需 学 习 实例 、 自 然 语言 处 理 基 础 和 模型 参数 优化 。 本 
章 包含 以 下 关键 内 容 : 

。 正确 选 题 是 十 分 必要 的 。 对 于 任何 可 能 的 应 用 ， 你 应 该 先 问 : “解决 这 个 问题 的 价值 
何在 ?” 

。 对 于 每 个 用 例 ， 你 需要 观察 数据 ， 并 系统 地 确定 数据 是 否 足 以 解决 当前 问题 。 

e 如 果 有 可 能 ， 要 用 最 简单 的 算法 构建 初始 模型 。 在 我 们 的 例子 中 ， 我 们 预测 评论 情感 
的 正确 率 达 90% 。 

e 对 备用 模型 和 模型 参数 组 合 的 测试 和 评估 ， 可 提高 模型 的 准确 性 。 

e 在 不 同 的 模型 参数 和 评价 标准 之 间 往 往 需要 权衡 。 我 们 看 到 了 由 模型 的 ROC 曲线 表 
示 的 负 正 率 (false positive) 和 假 负 率 (false negative) 之 间 如 何 权 衡 。 

e 最 新 自然 语言 和 机 器 学 习 模型 技术 ， 如 word2vec， 是 高 级 特征 工程 如 何 提升 模型 的 很 
好 的 案例 。 

。 算法 选择 不 仅 要 考虑 模型 的 准确 性 ， 还 要 考虑 诸如 训练 时 间 、 新 数据 的 处 理 代价 或 者 
预测 时 间 的 实时 性 等 因素 。 

e 在 实用 中 ， 模 型 总 是 可 以 提升 的 。 


8.5 ”本章 术语 


本 章 术 语 见 表 8-1。 

















表 8-1 本 章 术语 























术语 定义 
本 自然 语言 处 理 (NLP) 建 模 框架 ， 最 初 由 Coogle 发 布 ， 用 在 许多 最 新 的 涉及 自然 语 
言 的 机 器 学 习 系 统 中 








超级 参数 优化 ( Hyperparameter 


Optimization ) 








选择 参数 的 各 种 技巧 ， 控 制 机 器 学 习 算 法 的 执行 ， 以 使 性 能 最 大 化 
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扩展 机 器 学 习 流 程 


@ 决定 何 时 放大 机 器 学 习 流 程 的 模型 准确 度 和 预测 吞吐 量 。 
@ 避免 不 必要 的 复杂 的 扩展 策略 和 重型 基础 设施 的 投资 。 

e@ 扩展 线性 机 器 学 习 算 法 以 适应 大 数据 量 训练 数据 的 方法 。 
e 非 线 性 机 器 学 习 算 法 的 扩展 性 一 一 一 种 更 大 的 挑战 。 

e 减少 预测 延 时 并 增加 吞吐 量 。 


在 实用 机 融 学 习 应 用 中 ， 扩 展 性 问题 是 一 个 主要 方面 。 许 多 基于 机 融 学 习 的 系统 要 求 快 
速 地 处 理 新 数据 并 做 出 相关 预测 ， 因 为 预测 在 稍 后 的 几 毫 秒 之 后 将 会 变 得 毫 无 作用 (例如 ， 
试想 一 下 诸如 股票 市 场 或 单 击 流 数据 的 实用 预测 程序 ) 。 另 外 ， 其 他 机 咒 学 习 应 用 程序 在 训 
练 阶段 要 学 习 GB 级 乃至 TB 级 的 数据 (考虑 从 互联 网 规模 的 图 像 语料库 中 学 习 模 型 ) 。 

在 前 面 的 章节 中 ， 你 主要 集中 学 习 数 据 的 处 理 ， 收 集 足 以 拟 合 的 数据 ， 然 后 处 理 并 在 单 
个 机 器 上 建 模 。 对 于 许多 现实 问题 ， 这 些 知识 可 能 足以 解决 问题 ， 但 大 量 的 应 用 需要 扩展 到 
多 人 台 机 器 上 ， 甚 至 云 中 的 几 百 台 机 天 上 。 本 章 介 绍 关于 确定 扩展 策略 和 学 习 所 涉及 的 技术 。 

本 章 先 介绍 面 对 大 数据 或 高 预测 吞吐 量 时 应 考虑 的 各 种 问题 ， 并 介绍 几 种 方式 ， 你 可 以 
避免 在 全 面 扩 展 方 法 中 投入 太 多 的 时 间 和 资源 ， 以 及 几 种 在 万 不 得 已 的 情况 下 选用 的 技术 。 









































在 接 下 来 的 部 分 中 深入 探讨 扩大 机 融 学 习 流 程 ， 用 于 在 大 数据 集 上 训练 模型 。 最 后 ， 集 中 介 


绍 扩展 预测 流程 ， 以 提高 预测 吞 中 





上 量 和 减 小 延迟 。 








在 下 一 章 ， 你 将 使 用 所 学 到 的 一 切 知识 来 解决 现实 的 大 数据 实例 ， 不 过 在 此 之 前 你 需要 





耐心 地 完成 本 章 基 而 


1 知识 的 学 习 。 





9.1 扩展 前 需 考虑 的 问题 


对 于 任何 给 定 的 问题 ， 所 需 的 扩展 类 型 最 终 都 取决 于 应 用 实例 和 计算 条 件 的 限制 。 本 节 
从 介绍 现代 机 器 学 习 中 经 常 需要 的 扩展 类 型 开始 。 你 将 通过 各 种 维度 来 考虑 和 确定 哪些 可 能 
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是 你 代码 中 的 瓶颈 。 当 确定 了 需要 的 规模 化 类 型 之 后 ， 你 将 学 习 标准 的 技术 ， 以 保证 你 的 机 
器 学 习 应 用 程序 可 以 处 理 现实 的 数据 频率 和 容量 。 

我 们 先 从 一 个 更 高 的 角度 进行 介绍 ， 而 不 是 一 下 子 深入 到 特定 的 机 器 学 习 应 用 扩展 方法 
中 。 以 机 器 学 习 流 程 为 指导 ， 让 我 们 开始 系统 地 了 解 机 器 学 习 的 扩展 性 问题 。 
9.1.1 识别 关键 点 

让 我 们 先 把 机 器 学 习 流 程 分 解 成 两 个 主要 的 例 程 : 模型 训练 和 模型 预测 。 对 于 这 两 个 系 
统 ， 资 源 约束 如 何 影响 流程 ”如 何 限制 或 破坏 系统 ? 请 考虑 表 9-1。 

表 9-1 因 缺 乏 扩展 性 ， 在 建 模 阶段 可 能 出 现 的 问题 以 及 最 终 后 果 














规模 化 问题 后 果 
训练 数据 过 大 ， 不 能 拟 合 模型 没有 模型 可 以 拟 合 ， 无 法 进行 预测 
训练 数据 太 大 ， 模 型 拟 合 缓慢 模型 优化 不 可 行 ( 或 不 实际 ) ， 只 能 使 用 次 优化 模型 ， 牺 牲 准 确 度 








建 模 期 间 你 将 面临 的 扩展 性 问题 源 于 大 训练 数据 集 。 一 个 极端 的 情况 是 ， 如 果 训 练 数据 
太 大 ， 以 至 于 不 能 拟 合 模型 〈( 例 如， 数据 不 能 装 和 人 内存) ， 那 么 你 必须 找到 一 个 方法 以 回避 
这 个 问题 。 有 3 种 方法 可 以 选择 : 中 选择 一 个 较 小 的 数据 集 进 行 学 习 ; @) 使 用 更 大 内 存 的 机 
器 ; 全 使 用 更 高 效 的 内 存 学 习 算 法 。 

稍 后 ， 我 们 介绍 几 种 快速 方法 来 减少 数据 集 大 小 ， 而 不 会 显著 影响 模型 的 质量 。 接 着 ， 我 
们 讨论 数据 系统 的 可 扩展 性 ， 如 何 扩展 计算 周期 拟 合 你 的 问题 。 然 后 ， 我 们 介绍 可 扩展 的 学 习 
算法 ， 它 们 允许 在 不 依靠 截断 数据 或 额外 硬件 的 情况 下 ， 扩 展 机 器 学 习 模型 以 适合 你 的 数据 。 

对 于 稍 小 的 数据 集 ， 可 能 只 适合 相对 简单 的 模型 (如 线性 /逻辑 回归 模型 ) 来 代替 更 复 
杂 的 模型 (如 需要 改进 的 情况 ) ， 原 因 是 后 者 额外 的 计算 复杂 性 和 内 存 占 用 。 在 这 种 情况 
下 ， 你 只 能 牺牲 准确 度 ， 不 去 拟 合 更 复杂 的 学 习 算 法 ， 但 至 少 你 可 以 拟 合 一 个 模型 。 针 对 这 
种 情况 ， 前 面 出 现 的 相同 的 选择 是 可 以 尝试 的 方法 。 

在 相关 的 情况 下 ， 你 巨大 的 训练 集会 导致 模型 拟 合 缓慢 ， 进 而 影响 模型 的 优化 。 与 前 面 的 
情况 类 似 ， 这 将 导致 你 使 用 不 太 准确 的 模型 ， 因 为 你 被 迫使 用 粗 调 参数 优化 策略 或 完全 放弃 调 
优 。 但 与 前 面 的 情况 不 同 的 是 ， 这 个 困境 可 通过 更 多 结 点 加 速 (水 平 扩展 ) 和 在 不 同 的 机 器 
上 拟 合 模型 (通过 不 同 的 调整 参数 选择 ) 得 到 解决 。 我 们 将 在 9. 1. 3 节 详 细 介 绍 水 平 扩展 。 

在 预测 流程 中 ， 你 面临 的 扩展 性 问题 源 自 : 数据 输入 太 快 ,预测 或 特征 工程 过 程 是 
CPU 密集 型 的 ， 或 者 预测 数据 批量 很 大 。 请 考虑 表 9-2。 

表 9-2 ”缺乏 扩展 性 的 机 器 学 习 预 测 问题 ， 以 及 它们 的 最 终结 果 







































































和 
扩展 性 问题 后 果 

数据 速率 ( 流 ) 太 快 ， 机 器 学 习 系 统 无 法 应 对 积压 的 数据 越 来 越 多 ， 最 终 前 溃 

特征 工程 代码 和 /或 预测 过 程 过 慢 ， 不 能 及 时 产生 预测 | 潜在 的 预测 值 丢失 ， 特 别 是 实时 应 用 场合 

数据 ( 批 ) 量 太 大 ， 模 型 不 能 处 理 预测 系统 死机 ， 无 法 产生 预测 





幸运 的 是 ， 所 有 这 3 种 挑战 可 用 相同 的 策略 解决 : 使 用 更 多 机 咒 加 速 。 与 模型 训练 相 
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比 ， 预 测 的 优点 是 ， 在 大 多 数 情况 下 ， 对 于 每 个 数据 实例 预测 可 以 独立 进行 ?。 为 了 产生 预 
测 ， 在 任何 时 间 ， 你 只 需要 在 内 存 中 保存 单个 实例 的 特征 (和 你 构建 的 模型 )。 这 种 情况 与 
模型 训练 场景 相 比 ， 典 型 地 ， 全 部 训练 集 必须 加 载 到 内 存 中 。 因 此 ， 与 模型 训练 扩展 性 问题 
不 同 ， 预 测 扩展 性 问题 不 需要 (内 存 ) 更 大 的 机 器 ， 只 是 需要 更 多 的 机 顺 一 一 当然 还 需要 
有 效 的 数据 管理 系统 来 控制 它们 〈 后 文 将 详细 讨论 ) 。 

无 论 你 需要 产生 更 快 的 预测 ， 处 理 大 容量 数据 实例 ， 还 是 处 理 缓慢 的 特征 工程 或 预测 过 
程 ， 解 决 方案 就 是 增加 机 融 数 量 ， 把 不 同 的 数据 实例 的 子 集 发 送 到 每 个 结 点 进行 处 理 。 然 
后 ， 假 定 拟 合 的 模型 分 布 在 所 有 结 点 上 ， 你 可 以 在 所 有 机 器 上 并 行 产生 预测 ， 并 把 预测 结 
存储 到 中 央 数 据 库 中 。 

在 9.3 节 ， 你 将 深入 研究 预测 系统 。 在 那里 你 将 探索 一 些 方法 ， 用 于 构建 快速 的 、 具 有 
可 扩展 性 的 机 如 学 习 预 测 系 统 。 


9.1.2 选取 训练 数据 子 样本 代替 扩展 性 


在 有 些 情 况 下 ， 对 于 全 部 的 训练 数据 和 CPU 资源 ， 模 型 训练 无 法 进行 。 如 果 你 遇 到 这 
种 挑战 ， 而 且 没 有 其 他 办 法 可 选 ， 那 么 还 有 最 后 一 招 ， 你 可 以 考虑 在 建 模 之 前 ， 选 取 训 练 数 
据 的 子 样本 。 

虽然 一 般 情况 下 我 们 不 推荐 选取 子 样本 (这 样 可 能 丢失 重要 信 叶 ) ， 但 有 些 舍弃 数据 的 
方法 比 其 他 方式 要 好 ， 有 些 甚至 可 以 提升 你 的 模型 ， 这 与 使 用 的 机 器 学 习 算 法 有 关 。 你 有 两 
种 方法 舍弃 数据 舍弃 特征 或 舍弃 样本 实例 。 对 于 每 种 选择 ， 我 们 将 介绍 一 种 严谨 的 统计 学 
方法 ， 通 过 它 可 以 减 小 训练 数据 的 大 小 。 

特征 选择 

通常 数据 集 的 宽泛 性 容易 引发 计算 瓶颈 。 例 如 ， 在 基因 数据 中 ， 训 练 数据 集 可 能 包含 数 以 百 
万 计 的 基因 数据 (特征 ) ， 但 只 有 几 百 个 病人 实例 。 相 似 地 ， 对 于 文本 分 析 ，n - grams 的 特征 数 
据 可 能 包含 高 达 数 百 万 的 特征 。 在 这 些 情 况 下 ， 你 可 以 首先 消除 处 理 中 不 重要 的 特征 以 控制 模型 
训练 的 规模 ， 这 称 之 为 特征 选择 (feature selection) 。 图 9-1 所 示 为 特征 选择 工作 的 示意 图 。 
正如 我 们 在 第 4 章 和 第 5 章 讨论 的 一 样 ， 特 征 选 择 在 某 些 情况 下 可 使 模型 更 好 。 通 过 智 
能 删除 特征 ， 你 可 以 使 机 器 学 习 算 法 锁定 重要 的 信号 ， 而 不 被 无 关 紧要 的 特征 干扰 。 特 征 选 
举 的 得 与 失 取决 于 机 器 学 习 模型 的 选择 ， 以 及 由 于 侈 弃 数 据 造成 信息 丢失 的 情况 ， 因 此 需要 
经 常 验证 模型 对 数据 的 改变 进行 测试 。 在 本 节 ， 我 们 主要 讨论 大 数据 集 的 特征 选择 。 

对 于 大 规模 训练 集 ， 我 们 推荐 的 特征 选择 方法 是 Lasso 算法 。Lasso 算法 是 一 个 高 效 的 
线性 学 习 算 法 ， 可 以 自动 地 搜索 特征 中 最 具 预 测 性 的 子 集 。 跟 踪 整 个 算法 的 执行 轨迹 是 非常 
有 用 的 ， 可 以 让 用 户 洞 察 到 所 有 特征 在 线性 模型 中 预测 能 力 的 排序 情况 。 另 外 ， 还 可 产生 线 
性 模型 预测 的 最 佳 特征 子 集 。 
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”注意 ， 在 有 些 机 器 学 习 用 例 中 ， 预 测 不 能 在 孤立 的 数据 实例 上 进行 。 例 如 ， 时 间 序 列 预 测 模型 、 财 政 或 犯罪 模 
型 ， 产 生 一 个 预报 需要 多 个 时 间 改 的 预测 结果 。 
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原始 训练 





数据 :50 个 特征 新 的 训练 数据 
Lasso 选 择 
f1, f3, f6,..., fl 和 
fl 人 ff f50 flf3 f15 




















图 9-1 Lasso 特征 选择 降低 大 数据 集 维 度 ， 进 行 机 需 学 习 模 型 训练 


如 果 你 笠 运 〈 或 不 闻 ) 地 拥有 这 样 一 个 庞大 的 数据 集 ， 甚 至 不 能 适应 Lasso 模型 ， 你 可 
以 考虑 将 Lasso 拟 合 到 训练 集中 的 实例 子 集 (并且 可 能 在 算法 运行 中 取 平 均值 )。 这 可 以 让 
你 很 好 地 了 解 哪些 特征 可 以 从 模型 中 删除 而 不 会 降低 机 器 学 习 算 法 的 统计 性 能 。 

Lasso 特征 选择 明显 的 不 足 是 ， 它 使 用 线性 模型 来 衡量 每 个 特征 的 重要 性 。 被 Lasso 选 
出 的 特征 ， 可 能 与 目标 变量 存在 事实 上 的 非 线性 关系 ， 可 能 错误 地 被 Lasso 算法 捕获 。 作 为 
选择 ， 特 征 选择 存在 非 参 数 方法 ， 如 随机 森林 特征 的 重要 性 ， 但 这 些 方法 典型 地 不 能 被 放大 
到 大 数据 集 。 

实例 聚 类 

如 果 通 过 特征 选择 ， 你 的 训练 数据 仍然 太 大 不 能 拟 合 模型 ， 你 可 以 考虑 进行 实例 选择 。 
作为 万 不 得 已 的 方法 ， 可 以 选择 统计 聚 类 算法 来 识别 和 移 除 训练 实例 的 宛 余 。 

对 于 这 种 数据 精简 ， 我 们 推荐 使 用 一 种 集聚 层次 聚 类 算法 。 这 种 方法 将 初始 化 每 个 训练 
集 实例 作为 其 唯一 的 集群 成 员 。 然 后 ， 两 个 最 近 的 集群 顺 次 合并 (使 用 预先 定义 的 距离 确 
定 “ 最 近 ”) 。 相 近 集群 合并 直到 满足 指定 的 终止 条 件 〈 如 集群 数目 ) 。 我 们 推荐 尽早 结束 这 
一 过 程 ， 这 样 你 不 会 丢失 太 多 的 数据 信息 。 最 终 精 简 后 的 训练 集中 ， 每 个 集群 只 包含 一 个 
实例 。 


9.1.3 可 扩展 的 数据 管理 系统 


与 你 选择 的 扩大 机 融 学 习 流 程 的 策略 无 关 ， 首 先 你 要 做 的 是 处 理 数 据 。 在 过 去 的 十 几 年 
里 ， 一 种 称 作 大 数据 (big data) 的 技术 引起 了 人 们 的 注意 。 在 本 书 中 ,我 们 使 用 大 数据 术 
语 表示 单个 机 带 无 法 在 有 效 时 间 内 处 理 的 数据 。 这 里 我 们 介绍 一 些 最 成 功 的 大 数据 项 目 ， 以 
及 如 何 应 用 到 我 们 的 机 带 学 习 框 架 中 。 

现代 大 数据 系统 的 基本 原则 是 ， 通 过 添加 更 多 的 机 咒 以 便 能 够 处 理 更 多 的 数据 ， 这 称 为 
水 平 (horizontal) 扩展 。 与 之 相对 ， 另 一 种 处 理 大 数据 的 方式 为 垂直 (vertical) 扩展 ， 对 
现 有 的 机 器 进行 升级 ， 扩 充 硬 盘 、 内 存 或 CPU 核 数 。 图 9-2 所 示 为 水 平和 垂直 扩展 的 对 比 。 

有 时 ， 可 能 比 你 想象 得 还 要 普遍 ， 升 级 机 器 就 足以 扩大 你 的 机 器 学 习 流 程 。 像 前 一 节 开 
始 的 那样 ， 当 你 的 分 类 或 回归 问题 的 数据 处 理 准 备 好 之 后 ， 这 些 数 据 可 能 不 够 大 ， 不 足以 保 
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水 平 扩展 垂直 扩展 


SR 2 


数据 平均 冷 布 到 点 上 











图 9-2 大 数据 系统 的 水 平和 垂直 扩展 。 在 水 平 扩 展 系统 中 ， 向 基础 设施 中 添加 新 的 结 点 (机 
顺 ) ， 处 理 或 计算 更 多 的 数据 ， 因 为 负载 均衡 地 分 布 在 所 有 结 点 上 。 这 种 系统 的 一 个 很 好 的 例子 
是 Apache 的 Hadoop。 在 垂直 扩展 的 系统 中 ， 对 已 经 存在 的 机 器 添 加 更 多 资源 来 应 对 更 高 的 负 
载 。 这 种 方法 开始 时 可 能 比较 有 效 ， 但 可 添加 的 资源 有 限 。 这 种 方法 的 数据 库 例子 是 SQL 服务 
器 ， 如 PostgreSQL 


















































证 真实 大 数据 系统 的 复杂 性 。 但 在 某 些 情况 下 ， 当 处 理 流 行 网 站 、 移 动 App 、 游 戏 或 大 量 
理 传 感 器 时 ， 有 必要 使 用 水 平 扩展 的 系统 。 从 现在 开始 我 们 假定 扩展 指 的 是 水 平 扩展 。 

水 平 扩展 大 数据 系统 主要 有 两 层 : 存储 和 计算 。 在 存储 层 (storage layer) 存储 数据 以 
及 把 数据 发 送 到 计算 层 (computational layer) ， 数 据 在 这 里 得 到 处 理 。 一 个 应 用 最 广 的 大 数 
据 软 件 项 目 是 Apache 的 Hadoop ， 现 在 仍然 广泛 地 应 用 于 科学 研究 和 工业 领域 ， 它 的 思想 来 
源 于 早 在 2000 年 由 Google 和 其 他 Web 级 公司 达到 的 、 前 所 未 见 的 扩展 性 。 

Hadoop 的 存储 层 称 为 Hadoop 分 布 式 文 件 系统 ( Hadoop Distributed File System ，HDFS ) 。 
数据 集 被 分 成 若干 部 分 分 布 到 多 个 机 器 上 ， 因 此 可 以 并 行 处 理 。 而 且 ， 每 部 分 数据 是 允许 重 
复 的 ， 因 此 数据 不 会 因为 硬件 或 软件 的 错误 而 丢失 。 

Hadoop 的 计算 层 是 一 个 称 作 MapReduce 的 算法 ,将 计算 分 布 到 集群 中 的 结 点 上 。 在 
MapReduce 框架 中 ， 映 射 步骤 将 数据 从 HDFS 分 发 到 以 某 种 方式 变换 数据 的 工作 器 (work- 
er) 上 ， 通 常 保持 数据 行 的 数量 相同 。 这 与 前 面 章节 中 的 特征 工程 过 程 类 似 ， 对 每 个 输入 的 
数据 行 添加 新 的 列 。 在 精简 步 又 中 ， 映 射 的 数据 被 过 滤 并 聚合 成 其 最 终 形式 。 许 多 数据 处 理 
算法 可 被 转换 成 MapReduce 作业 。 当 算法 被 转换 到 这 种 框架 后 ,诸如 Hadoop 这 样 的 系统 将 
负责 在 集群 的 任意 数目 的 机 带 上 分 配 工作 。 

原则 上 ， 存 储 层 和 计算 层 不 需要 集成 在 一 起 。 许 多 组 织 使 用 云 提供 商 的 存储 系统 ， 如 亚 
马 逊 网 络 服务 (Amazon Web Services，AWS) 云 设 施 的 S3 服务 ， 连 接 Hadoop 的 MapReduce 
框架 进行 计算 。 这 样 做 的 优点 是 ，AWS 管理 你 的 庞大 数据 ， 但 也 失去 了 HDFS 和 MapReduce 
紧 耦 合 的 优点 : 数据 局 部 性 ( data locality) 。 数 据 局 部 性 可 使 你 的 系统 更 高 效 ， 因 为 计算 任 
务 所 处 理 的 数据 离 存 储 位 置 很 近 。 

Hadoop 社区 已 经 开发 了 称 为 Mahout 的 机 需 学 习 库 ， 实 现 了 一 系列 流行 的 机 需 学 习 算 
法 ， 可 以 工作 在 Hadoop 框架 的 HDFS 和 MapReduce 上 。 如 果 你 的 数据 存在 于 Hadoop 中 ， 则 
Mahout 是 机 器 学 习 值 得 研究 的 。Mahout 不 再 采用 简单 的 MapReduce 框架 ， 而 是 采用 更 高 级 
的 基于 Apache Spark 的 分 布 式 计算 方法 。Apache Spark 是 基于 Hadoop 思想 的 一 个 更 新 的 和 
更 流行 的 框架 ， 力 图 对 内 存 数据 人 处理 有 更 好 的 性 能 。Spark 有 自己 的 机 器 学 习 算 法 库 ， 称 为 
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MLlib。 图 9-3 示 出 了 Apache Spark 系统 的 结构 图 。 
通过 SQL 查询 Spark 实 时 Spark 的 机 器 学 习 Spark 的 图 
Spark 中 的 数据 流 处 理 算法 和 工具 处 理 框 架 
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图 9-3 基于 分 布 式 计 算 核 的 Apache Spark 结构 图 。Spark 的 SQL 允许 你 使 用 Python 的 
pandas 或 R 的 数据 帧 处 理 表格 数据 。Spark Streaming 允许 在 数据 到 达 时 实时 处 理 ， 与 Ha- 
doop 和 经 典 Spark 的 批 处 理性 质 不 同 。MLlib 是 针对 Spark 引擎 优化 了 的 机 器 学 习 算 法 库 。 
GraphX 是 一 个 允许 在 大 图 形 上 高 效 计算 的 库 ， 如 社交 网 络 的 社交 图 


可 扩展 机 融 学 习 算 法 在 本 质 上 通常 是 线性 的 。Mahout 和 MLlib 都 包含 几乎 大 多 数 的 线性 
机 融 学 习 算 法 或 非 线 性 算法 的 逼近 版 本 。 在 下 一 他 ， 你 将 看 到 这 两 种 类 型 的 算法 是 如 何 扩 
展 的 。 


9.2 机 器 学 习 建 模 流程 扩展 






































在 本 章 的 第 一 部 分 ， 你 看 到 了 在 扩大 机 顺 学 习 流 程 处 理 更 大 数据 集中 应 该 知道 的 事情 。 
在 本 节 ， 我 们 假定 你 已 经 决定 扩大 你 的 机 器 学 习 流 程 ， 并 选 定 了 要 使 用 的 大 数据 处 理 系统 。 
图 9-4 所 示 为 修改 后 的 机 器 学 习 流程 图 ， 使 之 适合 于 大 数据 人 处理。 


大 训练 数据 
可 扩展 的 特征 工程 高 吞吐 量 预 测 















可 扩展 的 机 器 学 习 算法 














图 9-4 修改 后 的 可 扩展 的 机 天 学 习 建 模 流 程 图 


在 9.1.3 节 ， 我们 介绍 了 一 些 大 数据 处 理 系统 ， 它 们 可 用 于 管理 和 处 理 任意 大 小 的 数 
据 。 因 为 它们 的 工作 是 基于 实例 的 ， 我 们 到 现在 为 止 介绍 的 特征 工程 处 理 过 程 ， 可 通过 这 些 
系统 中 的 简单 的 映射 调用 获得 。 接 下 来 ， 你 将 看 到 一 些 流行 的 线性 和 非 线性 机 器 学 习 算 法 在 
面临 大 数据 时 ， 是 如 何 扩 展 的 。 

在 本 章 的 开始 部 分 ， 你 看 到 在 学 习 阶 段 ， 最 基本 的 扩展 性 挑战 是 大 训练 数据 的 内 存 问 
题 。 为 了 规避 这 个 问题 ， 一 个 选择 是 实现 这 样 的 机 融 学 习 算 法 实现 相同 功能 ， 但 内 存 占 用 更 
小 的 算法 ， 或 可 以 在 分 布 式 系统 中 进行 训练 的 算法 ， 每 个 结 点 只 需要 整个 数据 集 的 一 个 
子 集 。 
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大 多 数 常 用 的 机 器 学 习 算 法 有 无 数 这 样 的 实现 。 从 scikit - learn 到 mlpack ， 这 些 实 现 不 
断 地 刷新 着 内 存 效 率 的 前 沿 〈 因 此 可 以 在 内 存 固定 的 单个 机 器 上 训练 更 大 的 数据 集 ) 。 然 
而 ， 数 据 量 的 增长 速度 远 远 超 过 了 机 器 学 习 软 件 和 计算 机 硬件 的 发 展 速度 。 对 于 某 些 训练 
集 ， 唯 一 的 选择 就 是 机 带 学 习 的 水 平 扩展 。 

最 常用 的 分 布 式 学 习 算 法 是 线性 〈( 和 逻辑 ) 回归 。Vowpal Wabbit (VW) 库 普 及 了 这 种 
方法 ， 并 且 一 直 是 在 多 台 机 器 上 进行 可 扩展 线性 学 习 的 主要 支柱 。 分 布 式 线性 回归 算法 的 基 
本 工作 方式 是 ， 首 先 发 送 训练 数据 的 子 集 (数据 行 的 子 集 ) 到 集群 中 的 各 人 台 机 右上。 然后 
以 迭代 的 方式 ， 每 人 台 机 带 对 数据 子 集 进 行 优化 ， 并 把 优化 结果 送 回 到 主 结 点 。 在 这 里 对 所 有 
信息 加 以 整合 ， 形 成 最 佳 解决 方案 。 经 过 为 数 不 多 的 几 次 这 样 的 迭代 ， 最 终 模 型 保证 接近 于 
整体 最 佳 模型 ( 如 果 单 个 模型 一 次 拟 合 所 有 数据 )。 因 此 ， 分 布 式 线性 模型 可 以 拟 合 TB 级 
甚至 更 多 的 数据 ! 

正如 我 们 在 本 书 中 多 次 讨论 的 一 样 ， 线 性 算法 不 一 定 足 以 对 数据 的 细微 差异 进行 建 模 并 
准确 预测 。 在 这 种 情况 下 ， 求 助 于 非 线性 模型 是 比较 有 帮助 的 。 非 线性 模型 要 求 更 多 的 计算 
资源 ， 水 平 扩展 对 于 非 线 性 模型 不 一 定 适 合 。 可 以 这 样 理解 ， 非 线性 模型 还 要 考虑 特征 间 复 
杂 的 相互 作用 ， 因 此 需要 在 任何 给 定 的 结 点 上 驻 留 更 多 部 分 的 数据 。 

在 许多 情况 下 ， 升 级 硬件 ， 或 寻找 更 高 效 的 算法 ， 或 者 对 选 定 的 算法 更 高 效 的 实现 ， 是 
比较 可 行 的 。 但 其 他 情况 下 ， 需 要 扩展 非 线性 模型 ， 下 面 我 们 讨论 几 种 这 样 的 方法 。 

多 项 式 特 征 

模拟 非 线 性 特征 相互 作用 的 一 个 应 用 最 广 的 方法 是 ， 创 建 现 存 特征 的 新 的 组 合 特征 ， 
并 训练 包含 非 线性 特征 的 线性 模型 。 一 种 稼 用 的 组 合 特征 的 方法 是 将 不 同 组 合 的 特征 相 
乘 ， 如 特征 1 乘 以 特征 2 、 特 征 2 的 平方 ， 或 者 特征 1 乘 以 特征 2 再 乘 以 特征 5。 假定 数据 
集中 包含 两 个 特征 , fL =4 和 也 =15。 除 了 在 模型 中 使 用 特征 身 和 也 之 外 ， 你 可 以 产生 新 的 
村 征 人 x 亿 =60， 人 fl” =16 和 也 ”=225。 数 据 集 经 常 包含 更 多 的 特征 ， 而 不 仅仅 是 两 个 ， 因 此 
这 种 技术 可 以 产生 数量 巨大 的 新 特征 。 这 些 特征 是 现 有 特征 的 非 线 性 组 合 ， 我 们 称 之 为 多 项 
式 特征 (polynomial features) 。 清 单 9-1 显示 了 如 何 通 过 Python 的 scikit - learn 库 实 现 这 种 
组 合 。 运 行 清单 代码 的 结果 显示 ， 把 多 项 式 特 征 添加 到 标准 的 芒 尾 花 分 类 模型 时 得 到 的 精度 
如 下 : 























































































































Accuracy (linear):0.95(+/-0.12) 


Accuracy (nonlinear):0.98 (+/-0.09) 


清单 9-1 通过 使 用 多 项 式 特 征 使 线性 模型 非 线性 化 

from sklearn import datasets 

from sklearn.linear model import LogisticRegression 装 截 样本 数据 。 

每 个 实例 描述 了 
模型 需要 学 习 分 类 


from sklearn.cross validation import cross_val_score 的 苞 尾 花 图 片 


from sklearn.preprocessing import PolynomialFeatures 





iris =datasets. load iris() 


linear classifier =LogisticRegression() 


构建 并 打印 


linear_scores =cross val _ score(linear classifier,\ 


























i 这 线性 模型 的 
iris.data,iris.target,cv=10) 交叉 验证 结果 
print "Accuracy (linear): t% 0.2f(+/- $0.2f)"% \ 
(linear_scores.mean(),linear scores.std()*2) 
pol =PolynomialFeatures (degree =2) 向 数据 集中 添加 两 度 的 
nonlinear data =pol.fit transform(iris.data) 多 项 式 相 互 作用 的 特征 
nonlinear classifier =LogisticRegression() 构建 并 打印 线性 模型 
nonlinear_scores = cross_Val_score (nonlinear classifier,\ 对 非 线性 数据 的 交叉 
nonlinear data,iris.target,cv=10) 验证 结果 


print "Accuracy (nonlinear):\t%$ 0.2f(+/- $0.2f)"% \ 


(nonlinear_ scores.mean(),nonlinear scores.std()*2) 

集成 了 多 项 式 特征 提取 功能 的 另 一 个 例子 是 Vowpal Wabbit 工具 箱 。VW 可 用 于 在 单个 
机 器 上 对 大 数据 进行 建 模 ， 因 为 所 有 的 计算 是 迭代 的 核 外 (out of core) 运算 ， 意 味 着 只 
特定 迭代 需要 的 数据 需要 驻 留 在 内 存 中 。VW 使 用 随机 梯度 下 降 和 特征 散 列 ， 以 可 扩展 的 方 
式 处 理 非 结构 化 和 稀 玻 数据 。VW 通过 提供 -q 和 - cubic 标志 产生 二 次 或 三 次 特征 的 方式 产 
生 非 线性 模型 ， 对 应 于 多 项 式 特征 ， 是 所 有 的 二 元 组 或 三 元 组 相 乘 。 

数据 和 算法 近似 

正如 你 在 前 一 节 中 看 到 的 一 样 ， 多 项 式 特征 方法 可 明显 地 提高 模型 的 准确 度 ， 但 也 会 使 
村 征 数 呈 多 项 式 级 增长 。 这 对 于 大 量 的 输入 特征 可 能 是 不 可 行 的 ， 因 此 这 里 你 将 看 到 一 些 具 
有 用 于 可 伸缩 实现 的 、 熟 知 的 、 近 似 的 非 线性 算法 。 其 他 算法 可 能 有 自己 的 近似 的 规模 性 实 
现 ， 因 此 ， 我 们 鼓励 你 对 于 喜欢 的 算法 做 进一步 研究 。 

广泛 应 用 的 非 线性 学 习 算 法 是 随机 和 森林， 你 已 经 在 前 面 的 章节 中 学 习 过 。 随 机 森林 包含 
大 量 的 决策 树 ， 乍 看 起 来 ， 通 过 在 每 个 结 点 上 构建 决策 树 的 子 集 的 方法 ， 把 它 扩 大 到 许多 机 
器 上 是 微不足道 的 。 请 注意 ， 如 果 每 个 结 点 可 用 的 数据 子 样本 不 够 相似 ， 则 模型 的 准确 性 可 
能 会 受到 影响 。 但 是 建立 更 多 的 树 或 更 智能 地 分 割 数 据 可 以 减少 准确 性 的 损失 。 

用 于 扩展 随机 森林 和 其 他 算法 的 另 一 个 近似 方法 是 直方 图 近似 (histogram approxima- 
tion) : 数据 集中 的 每 个 列 都 将 蔡 换 为 该 列 的 直方 图 ， 这 将 显著 地 降低 值 的 数量 。 如 果 直 方 
图 中 的 块 的 数量 过 少 ， 将 丢失 许多 细微 信息 ， 从 而 影响 模型 的 性 能 。 

另 一 个 自然 近似 的 算法 是 K 近邻 算法 ， 特 定 的 近似 树 结 构 可 用 于 增加 模型 的 扩展 性 。 
支持 向 量 机 也 有 许多 近似 方法 使 非 线性 模型 更 具有 扩展 性 ,包括 预算 随机 梯度 下 降 
(BSGD) 和 自 适 应 多 平面 机 (AMM) 。 

深度 神经 网 络 

神经 网 络 研 究 最 近 的 一 次 革命 产生 了 深度 学 习 这 一 新 的 领域 ， 可 以 产生 高 质量 的 非 线性 
模型 ， 并 可 以 证 明 可 扩展 到 非常 大 的 数据 集 。 在 机 器 学 习 初 期 ， 神 经 网 络 (NN) 被 大 量 研 
究 并 广泛 用 于 科学 和 生产 中 。 后 来 ， 随 着 易于 数学 推理 的 算法 出 现 ，NN 用 得 越 来 越 少 。 最 
近 NN 增加 了 一 些 重 要 的 革命 性 步骤， 使 得 它 在 大 型 数据 和 多 样 化 数据 处 理 方 面 焕发 出 新 的 
活力 ， 并 进入 深度 学 习 领 域 。 
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深度 学 习 (deep learning) 指 的 是 对 传统 神经 网 络 扩展 的 算法 家 族 。 通 常 这 些 模型 包括 
许多 神经 网 络 的 隐藏 展 ， 或 者 是 许多 单个 网 络 层 的 组 合 。 图 9-5 示 出 了 一 个 神经 网 络 的 
例子 。 




















图 9-5 两 个 隐藏 层 的 神经 网 络 。 对 人 类 大 脑 进行 模拟 ， 神 经 元 ( 每 层 中 的 圆 
圈 ) 由 模型 训练 阶段 学 习 到 的 权重 进行 连接 。 输 入 变量 通过 这 些 权重 的 连接 处 
理 获 得 预测 输出 变量 。 在 深度 学 习 中 ， 对 经 典 神经 网 络 概念 进行 了 扩展 ， 包 含 
更 多 的 各 种 形状 的 隐藏 层 和 各 种 度 的 层 之 间 的 连接 























深度 神经 网 络 的 一 个 缺点 是 ， 即 使 在 GPU 硬件 上 构建 和 优化 模型 ， 所 需要 的 资源 也 会 
耗费 很 长 时 间 。 实 际 上 ， 你 能 获得 的 最 佳 表现 与 其 他 算法 基本 相同 ， 如 随机 森林 算法 ,但 其 
他 算法 需要 的 时 间 要 少 得 多 ， 这 与 数据 集 和 要 解决 的 问题 有 关 。 神 经 网 络 的 另 一 个 缺点 是 ， 
很 难 理解 内 部 工作 机 理 。 有 人 称 之 为 黑 盒 模型 (black - box models ) ， 因 为 你 只 能 相信 模型 
的 统计 学 分 析 ， 而 不 能 完 探 它 的 内 部 工作 机 制 ， 这 一 点 与 使 用 场合 有 有关。 例如， 如 果 你 正在 
处 理 图 片 ， 神 经 元 可 以 直接 地 表示 针对 特定 预测 的 各 种 视觉 模式 。 

许多 深层 学 习 方 法 表现 出 可 以 扩展 到 大 数据 集 的 特性 ， 有 时 需要 使 用 现代 图 形 显示 卡 
(GPU) 进行 某 些 计 算 。Python 中 支持 GPU 的 深度 学 习 算法 库 可 参考 Theano (http://deeple- 
arning. net/software/theano/) 或 Keras (http://keras. io/， 它 是 基于 Theano 的 ) 。 















































9.3 预测 扩展 














机 器 学 习 扩 展 不 仅 是 对 大 数据 的 扩展 。 假 定 你 正在 构建 电子 邮件 服务 ， 并 突然 增加 了 几 
百 万 的 用 户 。 你 构建 了 一 个 完美 的 垃圾 邮件 检测 模型 ， 它 甚至 可 以 扩展 到 大 数据 集 ， 但 现在 
你 每 天 需要 进行 上 亿 次 的 预测 ， 每 秒 超过 一 万 次 预测 ! 图 9-6 所 示 显 示 了 这 一 常见 的 模式 。 
在 本 节 中 ， 我 们 讨论 几 种 方法 ， 以 扩展 预测 容量 ， 并 在 实时 应 用 中 提高 预测 速度 。 

举例 来 说 ， 为 了 处 理 数 据 巨大 的 电子 邮件 客户 端 ， 你 首先 需要 人 研究 用 于 扩展 预测 容 
量 的 基础 设施 。 接 下 来 ， 你 应 该 研究 如 何 扩展 预测 速度 并 保证 在 规定 的 时 间 内 给 出 结果 。 
当 机 器 学 习 模 型 用 于 实时 处 理 时 ， 这 是 十 分 重要 的 ， 如 对 于 人 类 或 移动 设备 的 Web 行为 
进行 预测 。 
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高 容量 和 /或 高 速度 预测 





可 扩展 的 机 器 学 习 算法 


图 9-6 将 机 器 学 习 的 预测 流程 扩展 到 高 容量 或 高 速度 预测 








9.3.1 预测 容量 扩展 


为 了 处 理 大 量 预 测 ， 你 可 以 使 用 从 计算 架构 已 知 的 模式 来 扩展 工作 者 线程 以 支持 任意 数 
量 的 请 求 。 传 统 的 做 法 是 建立 预测 作业 队列 ， 一 定数 目的 工作 者 结 点 从 中 取出 预测 作业 ， 加 
ee 并 对 应 用 返回 任何 有 意义 的 预测 结果 。 图 9-7 所 示 显 示 了 
扩展 预测 容量 的 结构 。 
































预测 工作 者 如 果 队列 中 的 
线程 等 待 作业 过 多 ， 
国 
工作 者 线程 
预存 储 
工作 者 线程 将 
















预测 结果 存储 
在 数据 库 中 






客户 端 
(Web/ 移 动 ) 














预测 队列 
(缓冲 区 ) 


图 9-7 可 扩展 预测 服务 的 可 能 架构 。 预 测 请 求 由 消费 者 发 送 到 队列 ， 代 表 预 测 工 
作者 线程 的 作业 。 工 作者 线程 把 预测 存储 在 数据 库 中 ， 完 成 时 返回 到 客户 端 。 如 果 
工作 者 线程 不 能 处 理 队 列 中 的 作业 而 造成 队列 堵塞 ， 则 可 加 入 更 多 的 工作 者 线程 


这 个 方法 要 求 模 型 加 载 到 所 有 工作 者 结 点 ， 当 然 还 需要 足够 的 工作 者 线程 (或 者 实地 
自动 扩展 方案 ) 处 理 输入 的 预测 作业 。 如 果 知 道 每 个 工作 者 的 平均 预测 时 间 和 要 求 的 速率 ， 
则 可 以 很 容易 地 计算 所 需要 的 工作 者 数目 : 














n_workers =request velocity * prediction time 


例如 ， 如 果 每 秒 内 有 10 个 预测 作业 ， 工 作者 需要 2s 完成 一 次 预测 ， 那 么 你 至 少 需要 
20 个 工作 者 线程 来 处 理 这 些 预测 请 求 。 这 里 优化 的 自动 扩展 解决 方案 能 够 根据 一 段 时 间 内 
的 队列 中 作业 的 等 待 数目 扩充 新 的 工作 者 线程 (或 结 点 )。 


9.3.2 预测 速度 扩展 


在 有 些 情况 下 ， 你 的 预测 需要 在 客户 端 提交 预测 请 求 后 的 规定 时 间 内 返回 。 例 如 ， 当 对 
用 户 的 操作 进行 响应 预测 时 ， 预 测速 度 可 能 是 十 分 重要 的 。 用 户 期 望 实 时 反馈 ， 并 且 甚 至 几 
秒 钟 的 等 待 都 可 能 不 利于 用 户 的 体验 。 想 象 一 下 ， 如 果 Google 搜索 需要 20 s， 你 可 能 早 就 
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“ 跑 ” 了 。 或 者 如 果 你 要 对 财政 处 理 做 出 预测 ， 仅 仅 百 万 分 之 一 秒 就 可 能 意味 着 赚 或 赔 好 
多 钱 。 

有 许多 方法 可 加 快 你 的 预测 速度 ， 如 升级 你 的 机 器 硬件 ， 或 使 用 更 高 效 的 算法 ， 或 研究 
算法 的 高 效 实现 。 你 还 可 以 优化 网 络 结构 ， 使 客户 端 在 地 理 位 置 上 尽 可 能 地 接近 服务 器 。 男 
外 ， 你 不 应 该 调用 其 他 有 可 能 增加 延迟 的 服务 ， 如 向 数据 库 记 录 预 测 结果 ， 或 者 等 竺 数据 写 
入 磁盘 并 在 集群 中 备份 。 在 下 面 的 例子 中 ， 我 们 假定 你 已 经 考虑 到 了 这 些 问 题 。 现 在 你 将 看 
到 实时 预测 服务 的 两 种 架构 。 

第 一 种 快速 预测 的 架构 类 似 于 前 面 介 绍 的 容量 扩展 结构 ， 但 需要 更 多 的 工作 者 线程 
(或 结 点 ) 。 基 本 思想 是 同时 将 预测 请 求 发 送 给 多 个 工作 者 线程 〈 或 结 点 ) ， 预 测 最 快 的 返回 
给 客户 。 图 9-8 所 示 显 示 了 这 种 架构 的 一 个 例子 。 


分 发 器 返回 结束 时 间 预测 工作 者 
内 的 第 一 个 预测 ， 其 
他 的 丢弃 

































































1 
a 
给 客户 端 后 把 结 


存 信 数据库， 以 保 
证 低 延 时 
预测 存储 

图 9-8 一 种 低 延迟 预测 流程 架构 。 预 测 分 发 右 将 预测 作业 发 给 多 个 工作 者 , 希 
望 至 少 有 一 个 能 按时 返回 。 它 将 返回 第 一 个 预测 结果 给 客户 端 ， 然 后 再 把 结果 存 
入 日 志 或 数据 库 中 ， 以 备 检查 和 分 析 〈 后 台 可 能 正在 处 理 下 一 个 预测 ) 





























另 一 种 实时 预测 方法 是 进行 部 分 预测 ， 因 此 计算 可 以 分 布 到 多 人 台 机 器 上 。 整 体 方法 包括 
一 类 能 够 很 好 地 适用 于 这 种 方法 的 算法 。 这 里 我 们 再 一 次 使 用 随机 森林 算法 的 例子 。 

随机 森林 模型 由 决策 树 的 集合 组 成 。 算 法 从 每 棵 树 进 行 预测 ， 并 根据 每 棵 树 的 投票 计算 
最 终 概率 。 例 如 ， 在 10 棵 树 中 对 某 个 预测 实例 有 6 棵 投 赞 成 票 ， 则 森林 返回 6/10 或 60% 作 
为 结果 。 通 常 查询 的 树 越 多 ， 准 确 度 越 高 ， 结 果 越 可 信 。 它 可 被 用 于 实时 预测 系统 ， 具 备 一 
定 的 速度 和 精确 度 。 如 果 每 个 预测 结 点 负责 一 棵 树 或 和 森林 中 一 个 树 的 列表 ， 则 每 个 结 点 都 可 
以 进行 预测 。 当 某 个 结 点 完成 自己 的 预测 时 ， 就 把 结果 返回 给 收集 器 ， 由 它 收集 来 自 所 有 结 
点 的 预测 并 形成 最 终 的 预测 结果 。 如 果 有 必要 ， 收 集 器 会 根据 时 间 限 制 ， 在 任何 时 候 返 回 当 
前 状态 的 预测 结果 。 例 如 ，1000 棵 树 中 只 有 20 棵 返回 了 结果 ， 这 时 用 户 获 得 的 结果 不 如 等 
待 1000 棵 树 全 部 完成 返回 的 结果 准确 。 

图 9-9 所 示 显 示 了 这 种 结构 的 实用 结构 图 。 

有 些 系统 可 以 支持 这 些 可 扩展 的 实时 系统 。 其 中 之 一 是 前 面 提 到 的 Apache 的 Spark 系 
统 : Spark 流 。 通 过 Spark 流 ， 你 可 以 得 到 一 系列 工具 和 库 ， 易 于 构建 实时 的 、 面 向 流 的 数 
据 处 理 流程 。 不 要 忘记 ,任何 预测 (数据) 都 要 经 过 与 模型 构建 时 相同 的 特征 工程 处 理 。 
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或 者 
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ee 

部 分 预测 ， 消 . 

结果 直到 肘 间 结束 ， 并 四 作 兴 
把 结果 返回 给 客户 端 
















预测 生 


消费 者 把 结果 返回 给 
客户 端 后 ， 再 把 结果 








预测 存储 
图 9-9 保证 在 规定 时 间 内 返回 结果 的 ， 建 议 使 用 预测 流程 结构 ， 如 果菜 些 部 分 预测 不 


























能 及 时 返回 结果 ， 则 可 能 会 潜在 地 牺牲 预测 精度 。 预 测 请 求 由 生产 者 输送 给 工作 者 ， 同 
时 消费 者 在 时 间 结 束 后 ， 收 集 部 分 预测 结果 返回 给 客户 端 





























其 他 项 目 包 括 Apache Storm 、Apache Kafka、AWS Kinesis 和 Turi。 每 个 项 目 对 于 特定 的 


都 有 优 缺点 ， 因 此 我 们 鼓励 读者 根据 自己 的 需求 采用 合适 的 工具 。 
总 结 





在 本 章 ， 你 已 经 学 习 了 扩展 机 需 学 习 系 统 的 各 种 方法 ， 通 过 数据 转换 适应 大 数据 处 理 ， 

构建 水 平 的 可 扩展 的 多 机 器 架构 。 主 要 内 容 如 下 : 

1) 有 时 需要 扩展 你 的 机 器 学 习 系统 。 以 下 是 一 些 常 见 的 原因 : 

e 训练 数据 不 能 拟 合 单个 机 器 。 

e 训练 模型 的 时 间 太 长 。 

。 输入 的 数据 容量 太 大 。 

。 预测 需求 延迟 很 低 。 

2) 有 时 你 可 以 通过 以 下 做 法 ， 避 免 在 扩展 基础 设施 中 花费 时 间 和 资源 : 

。 在 不 损失 精确 度 的 情况 下 ， 选 择 更 快 的 或 更 瘦 的 〈 即 需求 资源 更 少 的 ) 机 器 学 习 
算法 。 

。 取 数 据 的 子 样本 。 

。 垂直 扩展 (机 器 升级 ) 。 

。 如 果 比 扩展 系统 更 廉价 ， 则 可 以 牺牲 精度 或 降低 约束 条 件 。 

3) 如 果 水 平 扩展 不 可 避免 ， 应 用 广泛 的 系统 可 用 于 扩展 数据 管理 和 基础 处 理 架 构 : 

e 带 有 Mahout 机 器 学 习 框 架 的 Hadoop 系统 。 

e 再 有 MLlib 机 器 学 习 库 的 Spark 系统 。 

e Turi 框架 (前 身 是 GraphLab ) 。 

e 流 技术 ， 如 Spark Streaming、Apache Storm 、Apache Kafka 和 AWS Kinesis。 
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4) 扩展 建 模 流 程 可 考虑 以 下 方法 : 

e 选择 可 扩展 的 算法 ， 如 逻辑 回归 和 线性 SVM。 

。 通过 数据 和 算法 的 近似 扩展 其 他 ( 如 非 线 性 ) 算法 。 

。 使 用 分 布 式 计算 基础 架构 构建 你 喜欢 的 算法 的 可 扩展 版 本 。 

5) 预测 可 从 两 个 方面 进行 扩展 : 容量 和 速度 。 有 用 的 方法 如 下 : 

。 构建 允许 你 扩展 工作 者 线程 〈 或 结 点 ) 的 基础 架构 ， 以 适应 预测 容量 。 

。 把 相同 的 预测 作业 发 送 到 多 个 工作 者 结 点 〈 或 线程 ) ， 返 回 第 一 个 预测 结果 ， 从 而 优 
化 预测 速度 。 

。 选择 允许 在 多 个 机 器 上 进行 预测 的 算法 。 


9.5 本 章 术 语 


本 章 术 语 见 表 9-3。 











表 9-3 ”本章 术语 




















大 数据 (big data) 个 广泛 使 用 的 术语 ， 表 示 不 适 于 单个 机 器 的 数据 的 管理 和 处 理 问 题 



























































水 平 /垂直 扩展 (horizontal/ver-| 水平 扩展 意味 着 添加 更 多 的 机 器 以 处 理 更 多 的 数据 。 垂 直 扩展 意味 着 升级 我 们 机 器 
tical scaling ) 的 硬件 







































































Hadoop, HDFS, MapReduce, Hadoop 系统 被 广泛 用 于 科学 研究 和 工业 生产 ， 于 处 理 大 数据 。HDFS 和 MapRe- 
Mahonut duce 分 别 是 分 布 式 存储 和 并 行 处 理 系 统 ，Mahout 是 Hadoop 系统 的 机 需 学 习 组 件 
enab eel sie Ki Apache Spark 是 一 个 更 新 的 项 目 ， 力 图 把 数据 放 在 内 存 中 ， 以 使 比 基 于 磁盘 的 Ha- 
ee doop 有 更 高 的 效率 。MLlib 是 Spark 的 机 器 学 习 库 
ee i 在 数据 驻 存 的 地 方 进行 计算 。 数 据 传送 一 般 成 为 大 数据 项 目的 瓶颈 ， 因 此 避免 数据 
数据 同 避 化 (data locality》 | 传输 可 在 资源 需求 方面 获 益 





























多 项 式 特 征 ( polynomial fea-| 扩展 线性 模型 以 包括 非 线性 多 项 式 特征 交互 项 而 损失 线性 学 习 算 法 的 可 扩展 性 的 
tures ) 技巧 




























































































Vowpal Wabbit 对 大 数据 高 效 建 模 的 机 器 学 习 工 具 ， 无 须 使 用 诸如 Hadoop 之 类 的 大 数据 系统 

核 外 运算 《out 一 of- come) 中 需要 内 存 中 驻 留 当前 送 代 所 和 需 数据 的 计算 ， 称 为 核 外 运算 
CR 9 | 把 所 有 列 转换 成 学 习 过 程 的 直方 图 的 训练 数据 近似 方法 

特征 选择 (feature selection) | “选择 和 保存 最 佳 (最 具 预 测 性 的 特征 子 集 的 、 精 简 训练 数据 的 过 各 

i 选择 最 具有 预测 力 的 特征 子 集 的 线性 算法 。 对 于 特征 选择 十 分 有 用 

深度 神经 网 络 《deep neunal| 神经 网 络 的 一 种 进化 ， 可 扩展 到 大 数据 集 ， 并 实现 最 新 准确 度 。 在 实用 中 比 其 他 算 
i 法 需要 更 多 的 知识 和 计算 资源 ， 这 与 数据 集 和 解决 的 问题 有 关 

预测 容量 /速度 《prediction val-| 扩展 预测 容量 意味 着 能 够 处 理 很 多 数据 。 速 度 扩展 是 指 足 以 应 对 特定 的 实时 应 





























ume/ velocity ) 场合 


准确 度 和 速度 (accuracy vs. 
speed ) 











对 于 实时 预测 ， 有 时 可 以 在 预测 准确 度 和 速度 之 间 寻 找 一 个 平衡 











Spark Streaming，Apache Storm, 
Apache Kafka，AWS Kinesis 








即将 推出 的 用 于 构建 实时 流 系统 的 技术 
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本 章 导 读 


@ 实用 数据 集 的 准备 与 可 视 化 。 

@ 构建 用 户 单 击 数字 显示 广告 的 概率 预测 模型 。 
e 对 比 几 种 算法 的 训练 和 预测 性 能 。 

@ 降 维 和 并 行 处 理 扩展 。 


第 9 章 介绍 了 可 使 你 扩展 机 融 学 习 流 程 的 技术 。 在 本 章 ， 你 将 应 用 这 些 技术 处 理 大 规模 
的 现实 问题 : 优化 在 线 广告 系列 。 我 们 首先 简要 介绍 在 线 广告 的 复杂 世界 ， 驱 动 它 的 数据 ， 
以 及 广告 客户 使 用 广告 支出 回报 率 (Return On Advertising Spend，ROAS) 的 一 些 方法 。 然 
后 我 们 展示 如 何 将 第 9 章 中 的 一 些 技术 用 于 这 个 典型 的 大 数据 应 用 程序 。 

在 我 们 的 案例 中 使 用 了 几 个 数据 集 。 不 幸 的 是 ， 只 有 为 数 不 多 的 这 种 类 型 的 大 数据 集 是 
公开 获取 的 。 案 例 中 使 用 的 主要 数据 集 没有 提供 下 载 ， 即 使 能 够 下 载 ， 也 远 远 超过 了 个 人 的 
计算 能 力 。 

可 以 下 载 并 用 于 非 商 业 用 途 的 一 个 数据 集 来 自由 Criteo 赞助 的 Kaggle 显示 广告 挑战 赛 ， 
该 公司 的 业务 是 优化 广告 活动 的 性 能 。Criteo 数据 集 包 含 超过 450 万 条 39 个 特征 的 观测 数 
据 ， 其 中 13 个 特征 是 数值 型 的 ，26 个 特征 是 类 别 型 的 。 不 幸 的 是 ， 和 常用 于 数据 科学 竞赛 
的 数据 一 样 ， 特 征 意义 被 模糊 化 。 变 量 名 从 V1 ~ V40。V1 是 标签 ，V2 ~ V40 是 特征 。 在 实 
用 中 ， 知 道 每 个 特征 的 度量 和 表示 的 意义 是 非常 有 益 的 。 但 是 ， 随 着 比赛 的 证 明 ， 你 可 以 探 
索 他 们 的 预测 价值 ， 并 创建 有 用 的 模型 。 

Criteo 数据 集 可 从 https://s3 - eu - west - 1. amazonaws. com/criteo ~ labs/dac. tar. gz 上 
获得 。 














































































































10.1 显示 广告 

















John Wannamaker 说 ， 我 投 到 广告 中 的 钱 有 一 半 是 浪费 的 ， 但 问题 是 ， 我 不 知道 是 哪 
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一 半 。 

广告 狂人 的 日 子 里 ， 这 是 一 个 不 争 的 事实 。 但 是 随 着 数字 广告 的 发 展 ， 通 过 收集 用 户 与 
在 线 广告 的 交互 数据 ， i se 哪些 不 起 作用 。 

在 线 广告 通过 各 种 媒体 传播 。 显 示 广 告 (display ads) 显示 在 浏览 器 解析 的 网 页 中 ， 通 
稼 是 个 人 的 计算 机 或 笔记 本 式 计算 机 。 因为 对 于 移动 浏览 器 的 用 户 识别 和 Cookie 处 理 手段 
不 同 ， 移 动 广告 技术 基于 不 同 的 技术 ， 产 生 不 同 的 历史 数据 。 原 生 广 告 (native ads) 骸 入 
在 游戏 或 移动 App 中 ,与 在 显示 网 络 视频 内 容 之 前 展示 的 广告 ， 基 于 不 同 的 传递 技术 ， 并 
且 需 要 针对 它们 特定 的 流程 进行 定制 分 析 。 我 们 的 案例 仅 限 于 传统 的 显示 广告 。 

许多 显示 广告 的 术语 来 自 平 面 广告 业 务 。 可 以 购买 广告 的 网 站 称 为 出 版 物 (publica- 
tions) ， 其 中 的 广告 空间 按 大 小 和 格式 ， 或 广告 单位 (ad unit) 进行 调整 ， 网 站 或 网 页 上 的 
位 置 称 作 广告 位 〈placement) 。 每 则 广告 的 描述 称 为 展示 (impression ) 。 广 告 大 多 以 1000 次 
展示 销售 ， 价 格 称 为 CPM (每 千 次 展示 费用 ) 。 

每 当 用 户 浏览 一 个 网 页 ， 假 定 是 xyz. com， 看 起 来 是 xyz. com 的 发 布 者 传递 了 整个 网 页 。 
事实 上 ， 页 面包 含 许多 通过 复杂 的 网 络 中 介 填 充 的 广告 占 位 符 。 每 个 投递 广告 的 服务 需 维 护 
一 些 日 志 ， 人 $ 以 下 信息 : 每 则 广告 的 展示 信息 ， ee 划 上 人 鸭 Internet 地 址 和 网 络 
Cookie 信息 ， 可 能 存储 了 前 一 次 广告 投递 服务 器 的 信息 。 在 下 一 节 ， 你 将 看 到 在 广告 展示 活 
ed 





































































































10.2 数字 广告 数据 





Web 服务 器 记录 每 个 用 户 的 请 求 信息 ， 包 括 以 下 内 容 : 

e 客户 地 址 (client address ) 发 送 请 求 的 计算 机 的 IP 地 址 。 

e 请 求 (request) 一 一 URL 和 请 求 参 数 (例如 ，http://www. abc. com? x = 1234&y = 
abc01 ) 。 

e 状态 (status) 一 一 服务 器 发 送 的 服务 状态 码 ， 通 常 为 200， 表 示 响 应 成 功 。 

e 引用 页 (referrer) 将 用 户 NA 














系统 的 字符 串 。 
e Cookie 由 当 再 次 访问 相同 的 网 站 时 ， 
该 文件 随 请 求 发 送 到 服务 器 。 
另外 ,许多 现代 的 广告 与 度量 程序 一 起 服务 一 一 捕获 如 下 内 容 的 一 小 段 JavaSeript 程序 : 
e 可 见 性 (viewability) 一 一 广告 是 否 显示 以 及 显示 多 长 时 间 。 
e 用 户 ID (user ID) 一 一 浏览 器 的 Cookie 用 于 留 下 用 户 的 唯一 标识 ， 当 再 次 遇 到 客户 
时 便于 标识 。 
e 可 见 时 间 (viewable seconds) 一 一 广告 可 见 的 时 间 长 度 ， 以 s 为 单位 。 
图 10-1 所 示 显 示 了 一 次 活动 的 数据 样本 。 可 见 性 数据 从 查询 字符 串 中 提取 ， 用 户 ID 根 
据 用 户 的 前 一 次 访问 随机 产生 。 
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TE 本 a 
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0 9b644f47729749cc80ac9a67df399cb0 Windows D10037853.com 
0 06c757b7637647fb96b2d911303d5ed5 Windows D10013014.com 
0 


4171bedc8a99412a980c8521eee86c83 Windows D10013014.com 

















4 | 2015-09-25 06:23:47 


图 10-1 展示 数据 (域名 根据 真实 域名 随机 生成 ) 




















10.3 特征 工程 和 建 模 策略 














是 否 单 击 (click) 是 我 们 的 目标 变量 。 你 要 预测 广告 被 单 击 的 可 能 性 (有 时 称 为 单 击 
或 点 选 )。 更 具体 一 点 ,假定 一 个 特定 的 用 户 访问 特定 的 网 站 ,你 要 知道 用 户 单 击 广告 的 可 
能 性 。 你 在 规划 这 个 问题 时 有 几 种 选择 ， 你 可 预测 给 定 用 户 的 单 击 可 能 性 ， 也 可 以 对 每 个 发 
布 商 的 广告 预测 点 击 率 (CTR ) 。 

这 些 预测 将 来 怎么 使 用 ” 处 理 方式 是 什么 ?这 些 问题 将 决定 你 建 模 的 准确 度 和 预测 的 精 
确 性 ， 通 常 都 是 这 样 的 。 在 这 种 情况 下， 我 们 的 广告 客户 就 可 以 有 一 个 出 版 物 的 黑 名 单 ， 
此 广告 客户 的 关注 点 是 识别 产生 单 击 最 少 的 出 版 物 。 近 年 来 ， 已 经 开发 了 实时 拍卖 技术 ， 人 多 
许 广告 商 基于 由 拍卖 系统 提供 的 用 户 和 出 版 物 特征 来 竞价 个 体 展示 ， 但 是 我 们 的 广告 客户 还 
没有 采用 实时 拍卖 系统 。 

广告 客户 为 什么 不 查看 所 有 出 版 物 的 历史 数据 ， 把 CTR 低 的 列 入 黑 名 单 呢 ?你 可 能 对 
这 个 问题 比较 迷惑 。 问 题 在 于 ， 对 于 某 个 活动 整体 CTR 接近 0. 1% ， 某 个 只 有 几 个 展示 的 出 
版 物 期 望 的 单 击 次 数 是 0， 没 有 单 击 并 不 意味 着 CTR 很 低 。 更 进一步 ， 当 我 们 整合 表现 最 好 
的 低 容量 的 出 版 物 时 ， 我 们 通常 考虑 平均 CTR (因此 仅 把 所 有 低 容 量 的 出 版 物 纳 入 黑 名 单 
不 是 一 个 好 策略 ) 。 你 要 寻找 一 个 模型 ， 可 以 使 你 预测 出 版 物 的 性 能 ， 而 不 受 历 史 表 现 的 
影响 。 

乍 一 看 ， 你 可 能 认为 没有 多 少 工作 要 做 。 你 可 以 对 广告 展示 、 是 否 单 击 、 用 户 浏览 情 
况 、 出 版 物 和 操作 系统 进行 统计 。 或 许 一 天 之 内 的 时 间 ， 或 者 一 周 内 的 时 间 对 统计 比较 有 意 
义 。 但 进一步 思考 ， 你 会 认识 到 用 户 访问 的 域 是 描述 用 户 的 特征 ， 访 问 域 的 用 户 是 域 的 特 
征 。 突 然 ， 你 就 获得 了 数据 处 理 的 财富 和 体验 维度 诅 吕 (the curse of dimensionality) 一 — 撒 
述 高 维度 空间 中 工作 苦难 的 一 个 短语 的 机 会 。 随 着 你 对 数据 的 研究 ， 会 逐渐 体会 到 特征 处 理 
的 财富 意味 着 什么 ， 如 果 不 是 一 个 诅 品 ， 那 也 是 喜忧参半 的 事情 。 

你 或 许 能 够 认识 到 在 这 里 处 理 问题 的 逻辑 ， 可 以 作为 推荐 系统 (recommenders) 的 基 
础 ， 如 Netflix 上 的 电影 推荐 ，Amazon 的 产品 推荐 和 Yelp 的 餐厅 推荐 系统 。 把 用 户 表 征 为 项 
目的 集合 和 把 项 目 作 为 用 户 的 集合 ， 是 协作 过 滤 (collaborative filtering) 的 基础 ， 其 中 用 户 
按 条 目的 首选 项 进行 分 类 ， 条 目 按 用 户 的 相似 程度 进行 归 类 。 当 然 ， 推 荐 系统 的 动机 是 给 用 
户 呈 现 他 们 可 能 购买 的 项 目 。 广 告 问题 是 推荐 系统 的 一 个 变种 ， 相 同 的 广告 出 现在 各 种 各 样 
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的 出 版 物 中 ， 而 不 是 给 某 个 用 户 展示 许多 项 目 。 主 要 原则 是 能 够 博得 用 户 注意 (是否 单 击 ) 
的 出 版 物 ， 将 是 哪些 有 相似 成 功 的 出 版 物 。 因 为 这 种 相似 性 基于 普通 用 户 ， 通 过 这 种 方式 选 
择 的 出 版 物 ， 将 会 吸引 有 共同 兴趣 的 用 户 。 








10.4 数据 大 小 和 形状 


你 将 从 900 万 条 的 观察 样本 开始 ， 这 样 小 的 样本 足以 装 和 人 人 内存， 并 可 以 进行 快速 的 基数 
和 分 布 运算 。 数 据 初 览 代码 见 清 单 10-1。 


清单 10-1 数据 初 览 

gs matplotlib inline 
import pandas aspd 
importseaborn as sns 


importnumpy as np 


importmatplotlib.pyplot as plt 
从 压缩 文件 
中 载 入 数据 





df =pd.read pickle('combined.pickle') 
nImps = len (df) 
nPubs =1len (aft.pub domain.unique()) 


nUsers =len(aft.user_ id.unidue()) 


print('nImps={} nnpubs = {} nnUsers ={} .format (nImps ,npPubs,nUsers)) 









































nImps =9098807 轩 
npubs =41576 广告 展示 数目 
nUsers =3696476 发 布 商 域 数目 
(Pubs *nUsers) /1000000 不 同 的 用 户 数 日 
户 / 项 目 和 矩阵 的 大 小 ， 
153684 | 1536.84 亿 个 元 素 除 以 100 万 以 便于 阅读 
一 个 相当 大 的 和 矩阵 


幸运 的 是 ， 绝 大 多 数 用 户 不 会 访问 太 多 的 域名 ， 因 此 用 户 / 项 目 和 矩阵 是 稀 疏 的 ， 对 于 
大 而 稀 玖 的 矩阵 ， 你 有 自己 的 处 理工 具 。 没 有 任何 人 说 ， 用 户 和 域名 必须 是 巨大 矩阵 的 
行 和 列 ， 但 事实 可 以 证 明 ， 某 些 有 价值 的 算法 对 于 内 存 中 的 用 户 / 项 目 和 矩阵 操作 表现 得 异 
常 好 。 

另外 ,还 有 一 件 事 情 : 清单 10-1 引用 的 900 万 条 观测 记录 大 体 上 占 数据 的 0. 1% 。 最 
终 你 需要 处 理 大 约 100 亿 条 广告 展示 数据 ， 而 且 这 仅仅 是 一 个 周 的 数据 。 在 32GB RAM 的 亚 
马 逊 Web 服务 (AWS) 实例 上 ， 我 们 载 和 人 900 万 条 广告 展示 数据 大 约 占 内 存 的 53% ， 这 将 
随 着 你 的 推进 变 得 更 有 趣 。 

接 下 来 ， 让 我 们 看 看 数据 在 类 别 变量 上 是 如 何 分 布 的 。 在 清单 10-1 中 ， 我 们 已 经 通过 
计算 (域名 ) pub_domain 和 (用户 ID) user_id 的 基数 ， 开 始 了 这 一 处 理 过 程 。 数 据 分 布 代 
码 见 清单 10-2。 
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清单 10-2 ”数据 分 布 


import seaborn as sns 日 人 
seaborn 是 一 个 
nClicks =df.click.value counts() [True] 统计 可 视 化 库 


print ('nClicks = {}({}%)" 


.format (nClicks,round (float (nCl1 cks)*100/nImps,2))) 


nClicks =10845 (0.12% ) 

nViews =df.viewed.value_counts() [True] 
print ('nViews = {}({}%$)'.format (nViews, 
round (float (nViews) *100/nImps,2))) 
nViews =3649597 (40.11% ) 

df.groupby ('pub_domain').size() 


b_domai 对 域名 进行 分 组 ， 并 观测 
es 每 个 域 中 的 广告 展示 数 


D10000000. com 321 
D10000001. com 117 
D10000002. com 124 
D10000003. com 38 
D10000004. com 8170 


f=df.groupby ('pub_domain').sizel() 
f. describe() 

count 41576. 000000 

mean 218. 847580 

std 6908. 203538 

min 1. 000000 

25% 2. 000000 

Ss0% 5.000000 

759% 19. 000000 

max 1060001. 000000 
sns.distplot (np. 10g10 (£)); 


从 图 10-2 可 以 看 出 大 部 分 域 的 广告 展示 很 少 ， 只 有 一 


广告 展示 较 多 。 因 此 你 
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广告 展示 的 数量 分 布 是 高 度 倾斜 的 








10-2 广告 展示 数据 的 直方 图 ， 从 图 中 可 以 看 出 ， 对 于 发 布 商 的 域名 来 说 ， 


可 以 通 
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过 图 示 的 方式 观察 分 布 情况 ， 我 们 以 10 的 指数 而 不 是 原始 频率 进行 绘图 (我 们 以 10 作为 基 
数 ， 因 此 你 可 以 认为 X 轴 的 坐标 是 10" ，10 ，10 …) 。 

或 许 最 重要 的 是 ， 你 可 以 看 出 单 击 次 数 相 对 较 少 ， 只 有 0. 12% 或 者 0.0012。 这 个 整体 
点 击 率 比 较 合理 。 但 对 于 这 个 例子 来 说 ， 你 需要 大 量 的 数据 以 便 有 足够 的 目标 样本 来 构建 模 
型 。 这 是 不 常见 的 ， 我 们 经 常 试图 预测 相对 较 少 的 现象 。 使 用 大 数据 技术 处 理 大 数据 集 的 能 
力 , 使 机 器 学 习 应 用 到 许多 全 新 问题 成 为 可 能 。 

相似 地 ， 根 据 用 户 ID 分 类 的 广告 展示 频率 是 高 度 倾斜 的 。 平 均 每 个 用 户 有 2. 46 个 广告 
展示 ， 但 中 值 是 1， 因 此 少数 的 大 量 单 击 把 平均 值 拉 高 了 。 




















10.5 奇异 值 分 解 


第 3 章 和 第 7 章 提 到 了 主 成 分 分 析 ， 或 者 PCA ， 一 种 无 监督 机 器 学 习 技 术 ， 常 用 于 降低 
维度 和 提取 特征 。 如 果 你 把 每 个 用 户 看 作 与 之 交互 的 出 版 物 的 特征 ， 那 么 每 个 出 版 物 大 约 有 
360 万 个 特征 ， 样 本 数据 中 的 值 大 约 有 1500 亿 。 很 明显 你 必须 减少 特征 ， 很 幸运 的 是 你 可 
以 很 容易 地 做 到 这 一 点 。 

事实 证 明 ，PCA 有 多 种 算法 ， 其 中 一 个 是 奇异 值 分 解 或 SVD。 你 可 以 以 各 种 方式 从 数 
学 的 角度 解释 SYVD， 数 学 家 很 容易 看 出 我 们 省 略 了 底层 的 线性 代数 的 东西 。 很 幸运 ， 就 像 
第 7 章 出 现 的 潜在 语义 分 析 一 样 ，SVD 在 Python 的 scikit -learn 包 中 有 非常 优秀 的 实现 。 但 
这 一 次 ， 让 我 们 准备 点 矩阵 代数 的 知识 。 如 果 你 学 习 了 和 矩阵 乘法 ， 就 会 知道 维度 的 重要 性 。 
如 果 A4,,. 表示 行 p 列 的 矩阵 ， 你 可 以 把 矩阵 4 与 另 一 个 维度 为 p 乘 以 g 的 矩阵 (如 
B ， ， ) 相 乘 ， 结 果 的 维度 是 / 乘 以 9 (假定 为 C,.)。 事 实证 明 ， 任 何 矩 阵 可 以 分 解 为 3 
部 分 ， 分 别 是 左右 奇异 向 量 和 奇异 值 。 

在 本 例 中 , 7 代表 用 户 的 数量 ， 每 个 用 户 用 矩阵 4 的 一 行 表 示 ,，P 表示 出 版 物 的 数量 ， 
每 个 出 版 物 用 和 矩阵 4 的 一 列表 示 : 










































































左 奇异 向 量 右 奇 异 向 量 
Atnxp= Utnx StnxpVipxp] 
4 是 一 个 n 行 p 列 奇异 值 
的 矩阵 


这 样 做 比较 有 意思 的 是 ， 奇 异 值 可 以 告诉 你 关于 左边 和 右边 (和 矩阵 UV 和 Vi 的 行 向量 ) 
的 奇异 向 量 所 代表 的 特征 的 重要 性 信息 。 特 别 地 ， 奇 异 值 告 诉 你 和 它 对 应 的 特征 向 量 的 独立 
程度 。 考 虑 相互 依赖 或 协 变 (covariant) 特征 的 含义 ， 或 者 更 简单 一 点 ， 假 定 两 个 特征 A 和 
B 是 相同 的 ， 当 特征 A 在 模型 中 使 用 之 后 ， 特 征 B 就 没什么 作用 了 ， 因 为 它 不 包含 任何 新 
的 信息 。 作 为 有 预测 性 的 模型 的 建立 者 ， 你 需要 的 特征 应 该 是 独立 的 ， 至 少 每 个 特征 对 目标 
变量 有 微弱 的 预测 性 。 如 果 你 有 许多 的 弱 预 测 因 子 ， 只 要 它们 的 预测 比 随机 的 好 ， 那 它们 结 
合 在 一 起 就 能 获得 力量 。 但 这 种 现象 ， 称 之 为 集合 效应 (the ensemble effect) ， 只 有 当 特 征 
是 相互 独立 时 才 有 意义 。 
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过 450 个 独立 性 较 强 的 特 生 


实用 机 器 学 习 


让 我 们 在 广告 数据 上 运行 SVD ， 并 观察 结果 的 奇异 值 ， 见 清单 10-3 。 


清单 10-3 ”广告 数据 的 SVD 
USser_idx,pub idx= {},{} 


for i in range (len (users)): 




















户 和 出 版 物 key 
首次 替代 为 整 型 下 标 





user_idx[users[i]]=i 
for i in range (len (pubs)): 


pub_idx [pubs [i]] =i 








二 
































nTrainUsers =lenl(df.user id.unidque ()) | 创建 用 户 /出 版 物 相互 
nTrainPubs = len (df.pub_domain.unigue()) 作用 的 稀疏 矩阵 
V=sp.1i1l1_ matrix((nTrainUsers,nTrainpubs)) 

def matput (imp ) : 

ifimp.viewed: 


V[iuser idx[imp.user id],pub idx[imp.pub domain]] =1 


df5 [df5.click ==True].apply (matput ,axis =1) 
# 执行 SVD ( 稀 玻 矩阵 的 SVD ) 
US,vt =svds(V,k =1550) 


plt.plot(s[:: -1]) 


当 运 行 SVD 时 你 使 用 k= 最 大 的 奇异 值 (maximum singular values ) 参数 把 计算 限制 为 
最 大 1550 个 奇异 值 。 图 10-3 所 示 显 示 了 它们 的 大 小 ， 你 可 以 看 到 大 约 1425 个 非 零 值 ， 超 











F 向 量 ， 剩 下 的 则 是 高 度 相 关 的 。 这 并 不 奇怪 ， 昌 然 用 户 数 超过 


300 万 ， 但 他 们 中 的 大 多 数 只 与 少数 的 几 个 出 版 物 交 互 。 考 虑 到 这 些 ， 一 次 观察 136 ,000 次 
用 户 访问 信息 (如 ebay. com)。 因 此 ， 如 果 把 每 个 用 户 向 量 看 作出 版 物 的 一 个 特征 ， 则 


ebay. 
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com 就 有 136 ,000 个 特征 是 相同 的 。 
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图 10-3 广告 数据 的 奇异 值 
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我 们 的 SVD 把 300 多 万 个 特征 减少 到 约 7000 个 , 大约 400:1 的 精简 比例 。 知 道 了 这 些 ， 


你 就 对 所 需要 的 资源 有 了 一 定 的 认识 。 在 下 一 节 中 ， 你 将 了 解 如 何 调整 和 优化 训练 模型 所 需 
的 资源 。 


10.6 资源 估计 和 优化 











到 目前 为 止 , 你 已 经 查看 了 表征 数据 的 基数 和 分 布 ， 并 完成 了 一 些 特征 工程 。 在 本 节 ， 
你 将 根据 相对 于 可 用 的 资源 的 计算 工作 负载 来 评估 手头 的 任务 。 

为 了 估计 所 需要 的 资源 ， 你 需要 进行 某 些 测 量 。 首 先 让 我 们 看 一 下 可 用 的 资源 。 到 目前 
为 止 ， 你 一 直 在 使 用 单个 m4. 2xlarge 亚马逊 EC2 实例 。 让 我 们 分 别 解释 一 下 ，EC2 是 亚 马 
逊 的 弹性 计算 云 ， 每 个 实例 都 是 一 个 具有 专用 CPU、 随 机 存 取 存储 带 (RAM) 和 磁盘 或 固 
态 在 线 存储 器 的 虚拟 服务 器 。m4. 2xlarge 表示 服务 器 具有 8 个 核 和 32GB 内 存 ， 人 磁盘 空间 单 
独 配 置 。 我 们 的 每 个 实例 有 1TB 的 弹性 块 存储 ( Elastic Block Storage，EBS) 空间 。EBS 为 
虚拟 存储 ,设置 为 你 的 单个 实例 拥有 1TB 的 专用 磁盘 空间 ， 在 实例 上 运行 Linux 操作 系统 。 
根据 需要 ， 你 可 以 很 容易 地 升级 单个 实例 ， 添 加 更 多 的 核 和 内 存 ， 或 者 添加 更 多 的 实例 。 

接 下 来 看 一 下 你 的 工作 负载 。 你 的 原始 数据 驻 留 在 亚马逊 简单 存储 服务 S3 上 的 事务 文 
件 中 ， 该 存储 服务 旨 在 以 低 成 本 存储 大 量 数据 ， 但 访问 速度 远 不 如 本 地 磁盘 文件 。 每 个 文件 
包含 大 约 100 万 条 记录 。 每 秒 可 从 S3 读 取 大 约 3 万 条 记录 ， 因 此 如 果 每 次 处 理 一 条 ， 则 100 
亿 条 记录 将 花费 92h。 从 S3 下 载 ， 通 过 并 行 多 路 (单个 实例 结 点 上 ) 下 载 可 加 速 约 75% ， 
因此 可 以 压缩 到 23 h。 

但 速度 不 是 你 要 解决 的 唯一 问题 ， 根 据 你 以 前 的 观察 ，1000 万 条 记录 载 入 内存， 大 约 
消耗 32GB 内 存 的 53% ， 如 果 载 人 全 部 数据 则 将 需要 1.7 TB 的 内 存 。 即 使 你 能 负担 得 起 ， 
亚马逊 也 没有 一 个 具有 那么 多 RAM 的 实例 。 

很 幸运 ， 你 不 需要 把 所 有 的 数据 都 载 人 内 存 。 更 进一步 地 ， 你 的 需求 不 仅 是 数据 大 小 的 
函数 ， 而 是 数据 的 形状 一 一 我 们 的 意思 是 数据 主键 的 基数 。 可 以 证 明 ，100 亿 条 数据 中 ， 只 
有 约 1000 万 个 用 户 和 约 30 万 家 出 版 物 ， 这 也 就 意味 着 用 户 / 出 版 物 矩 阵 约 有 3 万 亿 个 元 素 。 
但 当 输入 你 的 稀 玻 矩阵 时 ， 只 有 大 约 0. 01% 的 元 素 有 值 ， 因 此 3 万 亿 个 元 素 可 精简 至 3 亿 。 
假定 每 个 值 需要 一 个 64 位 的 浮 点 数 表 示 ， 则 你 的 用 户 / 出 版 物 矩 阵 将 会 占用 32 GB 内 存 
的 2.5% 。 

为 了 缩减 处 理 时 间 ， 你 需要 并 行 处 理 。 图 10-4 所 示 显 示 了 使 用 工作 者 结 点 (在 本 例 中 
为 附加 的 EC2 实例 ) 并 行 地 摄取 原始 数据 的 情况 。 

工作 者 结 点 不 仅 是 从 S3 读 取 数据 这 人 么 简单 ， 每 个 结 点 独立 地 构建 用 户 和 项 目的 稀疏 称 
阵 ， 当 所 有 工作 者 结 点 全 部 完成 时 ， 由 你 的 计算 结 点 进行 组 合 。 

第 9 章 描 述 了 一 些 大 数据 的 技术 : Hadoop，MapReduce 和 Apache Spark。 这 里 介绍 的 处 
理 过 程 就 是 MapReduce 作业 的 “小 儿科 ”。 一 个 大 任务 被 分 解 成 小 的 单元 ， 每 个 单元 被 送 到 
(映射 到 ) 一 个 工作 者 结 点 。 当 工作 者 完成 任务 时 ， 对 结果 进行 组 合 (精简 )， 并 把 最 终结 
果 返 回 给 请 求 者 。Hadoop 对 这 个 过 程 进行 了 几 处 优化 。 首 先 ， 每 个 工作 者 结 点 都 保存 了 部 
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图 10-4 并 行 处 理 扩展 了 原始 数据 的 获取 








分 本 地 数据 ， 而 不 是 通过 网 络 获取 (数据 )。Hadoop 优化 了 任务 分 配 ， 因 此 只 要 有 可 能 ， 每 
个 结 点 只 对 本 地 的 数据 进行 操作 。Spark 则 更 进一步 ， 工 作者 结 点 把 数据 载 和 内 存 ， 因 此 它 
们 在 执行 分 配 的 任务 时 不 需要 执行 任何 IO 操作 。 

虽然 这 个 案例 足够 大 ， 需 要 一 点 并 行 处 理 ， 但 还 不 值得 花费 精力 去 实现 一 个 这 样 的 杠 
架 。 一 天 你 只 需要 运行 一 次 完整 的 流程 ， 完 全 可 以 通过 简单 地 添加 更 多 的 实例 的 方法 ， 把 整 
个 处 理 过 程 的 时 间 缩 减 到 1b 或 更 少 。 但 你 可 以 容易 地 想到 一 个 应 用 ， 它 要 求 你 以 更 高 的 频 
率 执行 各 种 处 理 过 程 ， 所 有 工作 者 节点 在 多 次 处 理 循环 中 ， 把 数据 维持 在 内 存 中 ， 可 提高 性 
能 的 数量 级 。 














10.7 建 模 








你 的 建 模 目标 是 预测 每 家 出 版 物 的 CTR。 你 从 把 用 户 交 互 作为 特征 ， 并 使 用 SVD 精简 
特征 空间 开始 。 从 现在 起 ， 有 几 种 方法 进行 预测 。 你 的 第 一 个 模型 将 会 是 K 近邻 算法 
(KNN) 模型 ， 这 是 一 个 即 简单 又 非常 有 效 的 推荐 模型 。 你 还 会 训练 随机 森林 回归 器 。 随 机 
森林 是 基于 决策 树 的 学 习 形 式 ， 许 多 随机 样本 和 随机 特征 子 集 被 选择 ， 并 用 于 构建 决策 树 。 




















10.8 K 近邻 算法 





图 10-5 展示 了 简化 了 的 用 户 / 项 目 矩 阵 和 相 异 矩阵 。 注 意 ， 相 异 和 矩阵 的 对 角 线 元 素 全 
为 0， 因 为 每 家 出 版 物 的 用 户 向 量 ( 用户/ 项 目 和 矩阵 的 列 ) 与 其 本 身 是 相同 的 ， 因 此 与 自身 
的 距离 为 0。 你 会 发 现 ， 正 如 你 期 望 的 一 样 ，pub3 、pub4 和 pub7 之 间 的 距离 为 0， 因 为 在 
用 户 /项 目 和 矩阵 中 ， 它 们 的 列 分 别 相 同 。 还 要 注意 ，publ 和 pub5 的 距离 与 pub5 和 publ 的 
距离 相等 ， 换 句 话 说， 相 异 矩阵 是 对 称 的 。 有 趣 的 是 ， 有 些 推 荐 算法 不 定义 对 称 距 离 ， 项 目 
A 相似 于 项 目 B， 但 项 目 B 不 一 定 相似 于 项 目 A。 

使 用 几 种 可 用 的 测量 结果 之 一 计算 每 对 出 版 物 之 间 的 相似 性 (事实 上 是 相 异 性 或 距 
离 )， 然 后 选择 最 常用 的 欧 几 里 得 踊 离 (或 欧 氏 距离 ，euclidean distance) 。 

在 你 计算 了 位 对 之 间 的 距离 之 后 ， 下 一 步 就 是 计算 每 家 出 版 社 的 预测 CTR。 在 KNN 中 ， 
目标 变量 的 预测 值 由 目标 变量 的 个 近邻 的 平均 值 求 得 ， 假 定 每 个 预测 值 与 它 的 近邻 最 相 
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相 异 矩阵 




















户 /项 目 矩 阵 

































































图 10-5 相 异 或 距离 矩阵 显示 了 用 户 交 互 的 相似 性 或 相 异 性 。 在 本 例 中 ， 
j 户 /项 目 抢 阵 是 二 进 制 的 ， 表 示 用 户 是 否 与 出 版 物 有 交互 















































似 。 这 里 有 几 个 关键 问题 。 首 先 ， 你 应 该 如 何 选择 的 值 ? 应 该 考虑 多 少 个 近邻 ? 此 外 ， 通 党 
通过 对 平均 目标 值 的 计算 加 权 1 /距离 或 1/ 距 离 的 平方 来 对 最 接近 的 邻居 赋予 更 大 的 权重 。 

清单 10-4 显示 了 使 用 scikit - leam 中 的 NearestNeighbors 计算 对 于 一 定 范围 内 的 8 的 可 
能 值 的 预测 值 的 代码 。 这 里 你 尝试 3 种 加 权 公式 ， 每 个 有 20 个 值 。 图 10-6 所 示 显 示 出 一 
个 或 两 个 近邻 的 预测 最 佳 ， 更 大 范围 内 的 平均 不 能 带 来 实质 性 的 提高 。 这 可 能 是 因为 我 们 的 
数据 是 稀 玻 的 ， 近 邻 之 间 的 距离 通常 情况 下 比较 远 。 注 意 , 天 值 的 变化 幅度 也 很 小 。 在 任何 
情况 下 ， 规 范 化 的 RMSE 对 于 我 们 的 测试 集 预 测 范围 在 5% 以 内 ， 这 非常 不 错 ! 


w=1/d? 















































5.294 
5.292 
5.290 
5.288 
5.286 


规范 化 的 RMSE 


5.284 














10-6 3 种 权重 方案 的 RMSE, k=1 ~k=30 





清单 10-4 ”KNN 预测 


from sklearn.neighbors import NearestNeighbors 


权重 相同 





weightFunctions={ 
'f1' :lambda x:[l for i in range (len (x))], 1 距离 


'f2' :lambda x:1 /x, Ee 
ja 1/ 距 离 的 平方 
f3 :lambda x:1 /x * *2 
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对 于 3 个 加 权 方 案 中 的 每 一 
foridx,f in enumerate (weightFunctions): 个 ， 计 算 厂 1, 2,…., 20 的 预测 
rmseL = [] 目标 值 


wf =weightFunctions [f] 


fornNeighbors in range(l ,20,1) 初始 化 
neigh =NearestNeighbors (nNeighbors) 
， ， 查找 k 最 近邻 ，VT 是 用 户 / 项 目 
h.fit (VT 3 8 
er gr RIV 训练 数据 的 转 置 
act =DpDdq.Series () 
pred =pd. Series () 
TT 是 用 户 /项 目 
二 [in 人 
for i in range (TT. shape {01): 测试 集 的 转 置 
d=neigh. kneighbors (tt [i,:],return distance =True) 


W=pd.Series([v forv in d[0][0]]) 
y=pd.Series (pubsums.iloc[dqa[1][0]].CTR) 
act.append (pd. Series (tsums.iloc([i].CTR)) 
pred.append (pd. Series (np.average ly ,weights =wf (W)))) 
mse =act. sub (pred).pow(2).mean()/(pred.max() - pred.min()) 
mseL.appeng (rmse) 
plt. subplot (130 + idx +1) 
plt.plot (range (1 ,20,1),mseL) 
plt.tight_layout (pad =2.0) 


10.9 随机 森林 算法 


在 随机 森林 的 训练 阶段 ， 数 据 在 一 个 称 为 装 袋 (bagging) 的 过 程 中 被 重复 采样 ， 有 时 
这 一 过 程 也 称 为 引导 聚合 (bootstrap aggregating) 。 对 于 每 个 样本 ， 通 过 随机 选择 特征 的 子 集 
构建 决策 树 。 为 了 对 未 见 过 的 数据 进行 预测 ， 每 棵 决策 树 被 独立 求 值 ， 平均 (对 于 
回归 ) 或 者 每 棵 决策 树 对 分 类 “投票 ”。 对 于 许多 应 用 ， 随 机 和 森林 的 性 能 可 能 不 如 其 他 算 
法 ， 如 增强 树 或 支持 向 量 机 ， 但 随机 森林 算法 有 自己 的 优点 : 易于 使 用 ， 0 
解 ， 对 许多 树 的 训练 很 容易 并 行 化 。 你 需要 再 次 使 用 scikit - leam， 随 机 森林 回归 的 重要 变 
量 如 图 10-7 所 示 。 














中 




















0.6 T T T T T T T T T 
1 | | 1 1 | 1 1 1 
1 1 1 1 | 1 | 1 
(Re | Sh | EA | Ei | i es | | bn | 
1 1 1 1 | 1 | 1 
1 1 1 1 1 1 1 | 
和 六 二 全 三 二 疡 上 一 一 一 一 一 一 上 一 一 一 一 一 上 一 一 一 一 一 上 一 一 一 一 一 上 一 一 一 一 一 上 一 一 一 一 一 上 一 一 一 一 一 | 广 一 一 一 一 | 
1 1 1 1 | 1 | | 
1 1 1 1 | 1 | 1 
1 1 1 1 | 1 | | 
03r-- -5-7 A | A .i (Ree 和 加 
I I | I 1 1 1 
I I I I 1 1 1 
0.2 = 一 二 = 一 rs A Mm Fe 全 一 本 人 | 
| I | I 1 1 1 
| I I I 1 1 1 
0.1F-----— 全 二 = RS Rs 上 二 ---HH- 一 -一 一- 一 一 
I I I I 1 1 1 
I I 1 1 1 
0.0 i | = = 
exposure meanViewTime nlmps reach reachRate vlmps vRate vReach vReachRate 
图 10-7 ”随机 森林 回归 的 重要 变量 
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随机 森林 回归 代码 见 清单 10-5。 
清单 10-5 ”随机 森林 回归 





from sklearn.ensemble import RandomForestRegressor 特征 简单 的 根据 
from sklearn import cross validation 出 版 物 聚 合 





features = ['exposure', 'meanViewTime’', nImps', 'reach', 'reachRate', 


'vImps', 'vRate', 'vReach', 'vReachRate'] 


X train,x test,y train,y test =cross validation.train test splitl( 





df [features],df.CTR,test_size =0.40,random state=0) 


reg =RandomForestRegressor (n estimators =100,n jobs= -1) 一 


model =reg.fit (Xx train,y_train) 


scores =cross_validation.cross val_ score (model ,Xx train,y_ train) 一 


print (scores,scores.mean () ) 


([ 0.62681533, 0. 66944703, 0. 63701492] ) , 0. 64442575999999996) 


model. score(X test,y_ test) a 
在 测试 集 上 
运行 模型 
0.6135074515145226 


plt.rcParams ["figure. figsize"] = [12.0,4.0] 
plt.bar (range (len (features)),model. feature_ importances_ ,align ='center') 


_=plt.xticks (range (len (features)),features) 


交叉 验证 把 训练 集 























把 数据 划分 成 测试 集 和 训练 集 ， 划分 进行 模型 评估 
在 60% 的 数据 上 进行 训练 
保留 40% 用 于 测试 在 100 棵 树 上 执行 随机 森林 回归 : 




















n_jobs 参 数 告 诉 RF 算法 使 用 所 有 
可 能 的 (CPU) 核 


优化 后 的 随机 森林 回归 提供 了 有 用 的 CTR 预测 ， 但 不 如 KNN 的 预测 结果 。 你 的 下 一 步 
工作 是 探索 、 整 合 这 些 模型 ， 可 能 还 有 其 他 模型 的 方法 。 以 这 种 方式 组 合 模型 的 方法 称 为 集 
成 方法 (ensemble methods) 。 随 机 森林 就 其 本 身 而 言 是 一 种 集成 方法 ， 因 为 装 袋 是 一 种 产生 
多 种 模型 的 方式 (或 方法 ) 。 为 了 彻底 整合 不 同 的 模型 ， 如 这 两 个 例子 中 的 算法 ， 你 可 能 需 
要 层 和 到 (stacking) ， 或 者 层 著 泛 化 (stacked generalization ) ， 来 自 多 个 模型 的 预测 结果 变 为 
村 征 ， 通 过 训练 和 预测 整合 用 于 其 他 机 器 学 习 模 型 ， 通 常 是 逻辑 回归 (模型 ) 。 


9 


10. 10 ”其 他 实用 考虑 


你 已 经 看 到 了 大 数据 处 理 的 问题 : 高 维度 ， 计 算 资 源 ， 存 储 和 网 络 数据 传输 限制 。 正 如 
我 们 简单 提 到 的 ， 对 于 几 种 类 型 的 数字 广告 ， 这 一 过 程 可 能 是 重复 的 : 移动 、 视 频 和 本 地 | 
告 。 实 时 竞价 和 用 户 级 个 性 化 有 完全 不 同 的 一 套 关注 点 。 数 据 处 理 方式 根据 不 同 的 程序 可 能 
相差 甚 远 ， 在 一 种 情况 下 工作 地 很 好 的 模型 ， 对 于 为 一 种 情况 可 能 完全 行 不 通 。 
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在 我 们 的 案例 中 ， 有 大 量 的 历史 数据 开启 机 融 学 习 流 程 ， 但 我 们 的 推荐 类 系统 却 面临 车 
名 的 冷 启动 问题 (cold - start problem) 。 当 一 个 新 用 户 或 新 产品 进入 系统 时 ， 没 有 可 供 参 考 
的 历史 ， 你 根本 没有 建立 联系 的 基础 。 对 于 我 们 的 目的 而 言 ， 有 一 些 未 知 没什么 关系 ， 但 如 
果 从 头 开始 一 个 新 的 活动 ， 在 没有 历史 可 供 参 考 的 情况 下 ， 根据 相 似 活动 构建 的 模型 可 能 
效 ， 也 可 能 无 效 。 

在 现实 应 用 中 ， 有 很 多 工具 和 模型 可 供 使 用 。 数 据 量 越 大 、 环 境 越 复杂 ， 这 套 工 具 的 好 
处 就 越 大 ， 特 征 构建 、 数 据 精 简 、 训 练 预 测 和 评价 工具 很 好 地 组 织 在 一 起 ， 构 建 连续 的 自动 
的 工作 流程 。 

广告 案例 是 一 个 非常 优秀 的 例子 ， 其 中 的 外 部 因素 可 能 会 降低 预测 模型 的 有 效 性 。 随 着 
技术 和 商业 实践 的 改变 ， 行 为 也 会 发 生 改 变 。 移 动 设 备 的 增长 极 大 地 改变 了 数字 显示 的 现 
状 ， 实 时 竞价 系统 完全 改变 了 你 可 以 优化 的 级 别 。 新 的 坎 诈 形式 ,广告 隔离 程序 ， 新 的 浏览 
器 和 新 的 Web 技术 ， 无 不 改变 着 你 的 建 模 形式 。 在 现实 应 用 中 ， 模 型 是 构建 、 测 试 、 部 署 、 
度量 、 重 建 、 再 测试 、 再 部 署 和 再 度量 的 往复 过 程 。 

数字 广告 是 一 件 “ 烧 钱 ”的 业务 ， 对 于 它 支 持 的 品牌 ， 减 少 投资 浪费 的 优化 ， 即 使 是 
一 点 点 ， 也 可 收 到 巨大 的 投资 回报 。 删 除 所 有 无 效 的 广告 展示 可 以 节约 金钱 ， 但 如 果 用 于 显 
示 可 获得 客户 的 广告 ， 则 利益 将 比 节 约 的 成 本 大 很 多 ， 并 且 能 够 证 明 ， 克 服 这 项 动态 发 展 的 
业务 中 的 诸 项 挑战 ， 是 值得 的 。 































































































10. 11 总 结 








本 童 涵盖 了 实用 机 器 学 习 问 题 ， 不 仅 是 算法 选择 、 训 练 和 测试 模型 。 虽 然 这 些 是 机 融 学 
习 学 科 的 核心 ， 但 它们 的 成 功 却 与 实际 环境 和 权衡 有 关 。 下 面 是 本 章 案 例 的 要 点 : 

。 第 一 步 通常 是 理解 你 要 建 模 的 业务 逻辑 或 活动 ， 它 的 目标 和 度量 方式 。 考 虑 你 的 预测 
结果 如 何 使 用 也 是 十 分 重要 的 一 一 根据 你 带 来 的 深刻 理解 ， 期 望 做 到 哪些 调整 或 
优化 。 

不 同 的 特征 工程 策略 会 产生 不 同 的 工作 数据 。 广 泛 撒 网 ， 考 虑 所 有 可 能 性 是 比较 有 益 
的 做 法 。 在 第 一 个 模型 中 ， 你 大 量 扩展 特征 集 ， 然 后 通过 SVD 进行 精简 。 在 第 二 个 
模型 中 ， 你 使 用 简单 的 组 合 。 哪 种 方法 工作 得 最 好 ， 取 决 于 问题 和 数据 。 

在 研究 了 数据 子 样本 后 ， 你 就 能 够 对 执行 分 析 所 需要 的 计算 资源 有 所 估计 。 在 我 们 的 
案例 中 ， 瓶 颈 不 在 于 机 器 学 习 算法 本 身 ， 而 是 原始 数据 的 收集 和 组 合 ， 并 组 织 成 适合 
建 模 的 形式 。 这 是 很 不 寻常 的 ， 当 考虑 数据 分 析 所 需 的 资源 时 ， 要 考虑 到 前 期 准备 和 
后 续 的 任务 ， 这 是 十 分 重要 的 。 

。 通常 ， 最 好 的 模型 不 是 单个 模型 ， 而 是 模型 的 集合 ， 预 测 结果 被 整合 用 于 男 一 预测 模 
型 。 在 许多 实际 问题 中 ， 最 佳 集成 模型 和 创建 ， 操 作 和 维护 复杂 的 流程 之 间 存 在 着 一 
种 平衡 。 

在 现实 应 用 中 ， 有 些 问 题 ， 有 时 是 很 多 手头 问题 的 变种 。 我 们 讨论 了 广告 问题 的 几 个 
变种 ， 在 任何 复杂 的 学 科 中 也 是 很 常见 的 。 
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第 10 章 案例 ; 数字 显示 广告 





。 你 建 模 的 内 在 动力 通常 不 是 持续 不 变 的 ， 随 业务 、 市 场 、 行 为 和 条 件 的 改变 而 改变 。 
当 在 现实 中 使 用 机 器 学 习 异型 时 ， 需 要 不 断 地 监控 模型 的 性 能 ， 必 要 时 进行 重新 
设计 。 


10. 12 ”本 章 术 语 


本 章 术 语 见 表 10-1。 
表 10-1 本 章 术 语 
术 语 定义 
推荐 系统 (recommender) 预测 用 户 喜 欢 的 各 种 事物 的 一 类 机 器 学 习 算法 


协作 过 滤 (collaborative filte-| 根据 喜欢 的 东西 对 用 户 进行 分 类 ， 并 根据 大 部 用 户 的 接受 程度 对 物品 进行 分 类 的 
ring) 算法 













































































集成 方法 (ensemble method ) 组 合 多 个 模型 独立 预测 结果 的 机 器 学 习 策 略 

集成 效果 (ensemble effect) 多 个 组 合 模型 产生 比 单个 组 分 更 好 的 预测 性 能 的 趋势 
VA 加 

K 近邻 《算法 ) (k nearest | 基于 训练 空间 中 的 最 近 观测 进行 预测 的 算法 











neighbors ) 
欧 氏 距离 (Euclidean distance) 测量 特征 空间 距离 的 一 种 方式 。 在 二 维 空间 中 ， 它 就 是 熟悉 的 距离 公式 
一 种 对 训练 数据 拟 合 多 决策 树 分 类 或 回归 ， 并 基于 组 合 模型 进行 预测 的 集成 学 习 
为 
































随机 森林 (random forest) 
































装 信 (bageing) 随机 森林 和 其 他 算法 使 用 的 重复 抽样 过 程 
ee 使 用 一 个 机 器 学 习 算法 ， 经 常 是 逻辑 回归 算法 综合 其 他 算法 的 预测 结果 ， 形 成 最 终 
层 世 (stacking) 的 “共识 ”预测 





10.13 摘要 和 结论 


编写 本 书 的 第 一 个 目标 是 ， 以 可 理解 的 和 有 趣 的 方式 解释 实用 机 顺 学 习 技术 。 另 一 个 目 
标 是 ， 使 读者 认识 到 何 时 使 用 机 器 学 习 解 决 自己 的 实际 问题 。 下 面 是 一 些 要 点 : 

。 对 于 数据 驱动 问题 ， 机 顺 学 习 方法 具有 真正 的 优越 性 。 

。 基本 机 器 学 习 流 程 包括 数据 准备 、 建 模 、 模 型 评价 、 模 型 优化 和 预测 。 

。 数据 处 理 包 括 : 保证 收集 到 足够 的 正确 数据 ， 数 据 可 视 化 ， 数 据 探索 ， 缺 失 数据 处 

理 , 分 类 特征 记录 ， 执 行 特 征 工程 和 小 心 偏见 。 

e 机 带 学 习 使 用 许多 模型 。 广 义 上 的 分 类 包括 线性 的 和 非 线 性 的 ， 参 数 的 和 无 参数 的 ， 

监督 的 和 无 监督 的 ， 还 有 分 类 的 和 回归 的 。 

。 模型 评价 和 优化 涉及 迭代 的 交叉 验证 、 性 能 评测 和 参数 调整 。 

。 特征 工程 能 够 应 用 领域 知识 和 使 用 非 结 构 化 数据 。 通 常 可 以 大 幅度 提高 模型 的 性 能 。 

。 机 融 学 习 扩 展 绝 不 仅 是 处 理 大 量 数据 ， 它 涉及 工作 划分 、 新 数据 摄取 率 、 训 练 时 间 和 

预测 时 间 ， 存 在 于 整个 业务 环境 和 任务 需求 中 。 

机 天 学 习 相 关 的 数学 和 计算 机 科学 跟随 我 们 已 有 50 年 ， 但 直到 最 近 它 们 才 被 限制 在 学 
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实用 机 器 学 习 





术 界 和 一 些 深奥 的 应 用 领域 。 巨 大 的 互联 网 公司 的 发 展 和 数据 的 传播 ， 随 着 世界 的 网 络 化 打 
开 了 闸门 。 商 业 、 政 府 和 研究 人 员 每 天 都 在 研究 和 开发 新 的 机 器 学 习 应 用 。 本 书 主要 是 关于 
这 些 应 用 ， 以 及 足够 的 数学 和 计算 机 基础 ， 不 仅 解释 了 从 业者 做 什么 ， 还 解释 了 如 何 做 。 我 
们 强调 了 必要 的 技术 ， 以 及 无 论 在 算法 、 规 模 化 和 应 用 中 使 用 的 处 理 过 程 。 我 们 希望 已 经 揭 
开 了 机 器 学 习 的 神秘 面纱 ， 并 以 此 帮助 读者 把 机 器 学 习 用 于 解决 重要 的 问题 。 

进步 的 浪潮 到 来 了 。 计 算 机 自动 化 浪潮 改变 了 我 们 的 处 境 。Internet 浪潮 改变 了 我 们 的 
生活 和 文化 。 我 们 有 理由 相信 今天 的 机 天 学 习 就 是 下 一 次 浪潮 的 预兆 。 它 是 一 个 潮汐 前 兆 ， 
还 是 一 次 波涛 ， 或 者 海啸 ? 现在 说 还 为 时 尚 早 ， 但 机 顺 学 习 的 应 用 不 仅 是 继续 ， 而 是 在 加 
速 。 同 时 ， 至 少 可 以 这 样 说 ， 机 如 学 习 工 具 的 进步 是 非常 引 人 注 目的 。 随 着 我 们 逐步 编程 学 
习 更 抽象 的 技巧 ,计算 机 系统 正在 以 全 新 的 方式 发 展 。 它 们 正在 学 习 看 、 听 、 说 、 翻 译 语言 
和 驾驶 我 们 的 汽车 ， 并 预测 我 们 对 商品 、 服 务 、 知 识 和 关系 的 需求 和 期 望 。 
亚 蕊 . 查理 斯 . 克拉克 说 ， 任 何 非常 先进 的 技术 与 魔法 无 异 〈 克 拉克 第 三 定律 ) 。 当 机 
器 学 习 首 次 被 提出 时 ， 听 起 来 的 确 像 是 魔法 。 但 当 它 走出 神秘 的 殿堂 时 ， 我 们 才 认 识 到 它 是 
一 种 工具 。 随 着 它 的 应 用 越 来 越 多 ， 我 们 可 以 推广 它 的 应 用 〈 在 人 类 意义 上 来 说 ) ， 并 且 可 
以 想象 ， 在 不 知道 其 内 部 工作 细节 的 情况 下 的 其 他 应 用 。 和 其 他 一 度 被 看 作 魔法 的 其 他 高 级 
技术 一 样 ， 机 咒 学 习作 为 一 种 自然 现象 倍 受 瞩目 ， 最 终 变 得 比 魔 法 还 要 精致 和 漂亮 。 


















































进一步 阅读 

对 于 那些 希望 学 习 使 用 Python 语言 作为 机 器 学 习 工 具 的 读者 ， 我 们 推荐 Peter Har- 
rington 的 《机 器 学 习 实 战 (Machine Learning in Action)》 (Manning，2012) 。 

对 于 有 志 于 深入 研究 及 语言 实例 的 读者 ， 可 以 考虑 Max Kuhn 和 Kjell Johnson 的 《应 
用 预测 建 模 (Applied Predictive Modeling)》 (Springer，2013 ) 。 

Cathy O Neil 和 Rachel Schutt 的 《数据 科学 实战 (Doing Data Science: Straight Talk 
from the Frontline)》(O Reilly Media，2013 ) ， 里 面 的 “如 果 我 上 大 学 时 就 有 这 门 课 多 好 
啊 " ， 我 们 非常 同意 这 个 观点 。 

如 果 你 对 大 数据 和 机 器 学 习 的 商业 和 社会 应 用 比较 感 兴趣 ， 可 以 考虑 Viktor Mayer - 
Schanberger 和 Kenneth Cukier 的 《大 数据 时 代 : 生活 、 工 作 与 思维 的 大 变革 (Big Data， 
A Revolution That Will Transform How We Live, Work, and Think )》 (Houghton Mifflin Har- 
court, 2013 ) 。 

在 线 资源 如 下 : 

® www. predictiveanalyticstoday. com 企业 新 闻 。 

e@ www. analyticbridge. com 和 它 的 父 网 站 www. datasciencecentral. com。 

e www. analyticsvidhya. com 专注 于 机 器 学 习 的 分 析 性 新 闻 。 

® www. reddit. com/r/ machinelearning 机 器 学 习 讨 论 区 。 

® www. kaggle. com 竞赛 、 社 区 、 脚 本 和 作业 发 布 。 
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附录 音 用 机 器 学 习 算 法 









































































































































线性 / 非 “| 是 否 需要 
算法 名 称 类 型 应 用 Se 
> 线性 规范 化 
对 一 个 或 多 个 数量 特征 对 标量 目标 进行 建 横 。 虽 然 回 归 计 算 
线性 组 合 ， 但 如 果 特 征 与 目标 间 的 关系 已 知 或 可 以 猜测 ， 则 特 
征 可 以 通过 非 线性 函数 进行 转换 
线性 回归 
. . 回归 R:www. inside ~—r. org/r — doc/stats/ Im 线性 是 
(linear regression ) ， 
Python : http://scikit — learn. org/ stable/ modules/ generated/ sk — 
learm. linear_model. LinearRegression. html#sk - learn. linear_ mod- 
el. LinearRegression 
基于 数量 特征 对 观测 值 进行 分 类 ， 预 测 目 标 类 别 或 目标 类 别 
的 概率 
逻辑 回归 i 和 
ee . 分 类 及 : www. statmethods. net/advstats/ glm. html 线性 是 
( logistic regression ) yn 
Python: http://scikit - learn. org/ stable/ modules/ generated/ 
sklearn. linear_model. LogisticRegression. html 
基于 高 维 空间 分 离 的 分 类 ， 预 测 目标 分 类 ， 目 标 分 类 的 概率 
分 类 / 需要 另外 计算 。 使 用 部 分 数据 进行 回归 ， 性 能 高 度 依赖 于 数据 
SVM R:https://cran. r - project org/ web/ packages/el071/vignettes/ 线性 是 
| svmdoc. pdf 
Python : http://scikit - learn. org/ stable/ modules/ svm. html 
持 多 种 非 线性 模型 的 支持 向 量 机 
核 丽 数 SVM | 支持 多 种 非 线性 模 9 支持 癌 量 
人. 分 类 / 及 : https://cran. r — project. org/ web/packages/ el071/vignettes/ 、 
(SVM with 非 线 性 是 
回归 ”| svmdoc. pdf 
kernel) 
Python : http://scikit ~ learn. org/ stable/ modules/ svm. html 
通过 训练 集 与 测试 样本 之 间 的 “最 短 距离 ” ( 如 欧 氏 距离 ) 
计算 目标 变量 。 对 于 分 类 ， 由 训练 目标 进行 “投票 ” 。 对 于 回 
K -近邻 算法 分 类 / 归 ， 计 算 训练 目标 的 平均 值 。 预 测 基 于 数据 的 一 个 “局 部 ” 
(k — nearest 四 子 集 ， 但 对 于 某 些 数据 集 精度 很 高 非 线 性 是 


neighbors ) 














及 : https://cran. r - project org/ web/packages/ class/ class. pd 
Python :http://scikit - learn. org/ stable/ modules/ generated/ 








sklearn. neighbors. KNeighborsClassifier. html 
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算法 名 称 


线性 / 非 
线性 





决策 树 


( decision trees ) 








TI 





基于 测试 数据 的 属性 值 把 训练 数据 迭代 地 分 成 数据 子 集 ， 并 
产生 预测 目标 的 决策 树 。 产 生 易于 理解 的 模型 ， 但 随机 森林 和 
增强 算法 的 错误 率 更 低 

R. www. statmethods. net/advstats/ cart. html 

Python : http://scikit ~ learn. org/ stable/ modules/tree. html#tree 











非 线 性 





随机 森林 


(random forest) 


分 类 / 
回归 

















决策 树 的 “集合 ”用 于 7 比 音 个 个 决策 树 更 强 的 预测 。 对 
于 分 类 ， 多 个 决策 树 进行 “投票 ”。 对 于 回归 ， 对 它们 的 结 
求 平均 

R :https://cran. r - project org/ web/packages/ randomForest/ 





由 














randomForest. pdf 
Python : http://scikit ~ learn. org/ stable/ modules/ generated/ 
sklearmn. ensemble. RandomForestClassifier. html 


非 线 性 





增强 算法 


( boosting ) 


分 类 / 
回归 





n 


对 于 多 数 方法 ， 增 强 算法 通过 调整 权 值 降低 泛 化 错误 ， 对 3 
误 分 类 或 (对 于 回归 ) 较 大 残 差 的 样本 加 大 权重 
及 : https://cran. T - project org/ web/ packages/ gbm/ gbm. pdf 











https://cran. r - project org/ web/ packages/ adabag/ adabag. pdf 
Python: http://scikit - learn. org/ stable/ modules/ generated/ 
sklearn. ensemble. GradientBoostingClassifier. html 


非 线 性 





朴素 贝 叶 斯 算法 
(Naive Bayes) 





一 个 简单 的 、 可 扩展 的 分 类 算法 ， 适 用 于 文本 分 类 任务 
(如 垃圾 邮件 分 类 )。 它 假定 特征 间 都 是 相互 独立 的 (因此 称 
为 朴素 的 ) ， 但 事实 上 这 种 情况 很 少 ， 但 算法 在 特定 场合 工作 
得 很 好 。 它 利用 贝 叶 斯 定理 ， 但 不 是 在 统计 领域 中 使 用 的 
“中 时 斯 " 

及 : https://cran. r - project org/ web/packages/el071/ 

Python: http://scikit ~ learn. org/stable/ modules/ classes. html# 


modulesklearn. naive_bayes 



































非 线 性 


a 





神经 网 络 


(neural network ) 


分 类 / 
回归 





用 于 通过 反 向 传播 算法 来 估计 基于 大 量 输 入 的 未 知 函数 。 通 
常 比 其 他 方法 更 复杂 ， 计 算 量 大 ， 但 对 于 一 般 的 问题 更 强大 ， 
是 许多 深入 学 习 方法 的 基础 


及 : https://cran.r — project org/ web/packages/ neuralnet/ neu- 














ralnet. pdf 
https://cran. r - project. org/ web/packages/ nnet/ nnet. pdf 
Python: http ://scikit - learn. org/ dev/modules/neural_networks_ 
supervised. html 
http://deeplearning. net/ software/ theano/ 


非 线 性 


并 





Vowpal Wabbit 


分 类 / 
回归 














Yahoo 研究 中 心 的 John Langford 开发 的 在 线 机 器 学 习 程 序 ， 
现在 供职 于 微软 。 它 结合 了 各 种 算法 ， 包 括 普通 最 小 二 乘法 和 
单 层 神经 网 络 。 作 为 一 个 在 线 机 器 学 习 程序 ， 它 不 要 求 所 有 的 
数据 驻 留 内 存 。 它 以 快速 处 理 大 数据 而 著称 。Vowpal Wabbit 
只 有 一 种 输入 格式 ， 并 且 通 常 以 命令 行 的 方式 运行 ， 而 不 是 通 
过 API 调用 

https://github. com/ JohnLangford/ vowpal_wabbit/ wiki 



































XGBoost 
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分 类 / 
回归 








增强 决策 树 算法 的 高 度 优化 和 可 扩展 的 版 本 
https ://xgboost. readthedocs. org/en/ latest/ 








名 词 术 语 中 英文 对 照 


A 
accuracy assessment (准确 度 估 计 ) 
cross 一 validation (交叉 验证 ) 
holdout method (保持 法 ) 
k -fold cross - validation (k - 折 交 叉 验 证 ) 
warnings regarding 
overfitting and model optimism (过 度 拟 合 警告 和 模型 优化 ) 
accuracy score (准确 度 得 分 ) 
accuracy vs，speed (准确 度 与 速度 ) 
active learning method (主动 学 习 方 法 ) 
ad targeting (广告 定位 ) 
Adaptive Multi - hyperplane 
Machines ( 自 适 应 多 平面 机 ). See AMM 
additive models ( 见 AMM 附加 模型 ) 
advertising example (广告 样 例 ) 
display advertising (显示 广告 ) 




















feature engineering (特征 工程 ) 
impression data (展示 数据 ) 
k - nearest neighbors (k -近邻 算法 ) 
modeling strategy ( 建 模 策略 ) 
random forests (随机 和 森林 算法 ) 
real - world considerations (实用 因素 ) 
resource estimation and (资源 评估 和 ) optimization (优化 ) 
singular value decomposition (奇异 值 分 解 ) 
terminology (术语 ) 229 AI (artificial intelligence) (AI 人 工 智能 ) 
AIC (Akaikie information criterion) ( Akaike 信息 标准 ) 
algorithms (算法 ) 
linear (线性 ) 
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logistic regression ( 敢 辑 回归 ) 

machine leaming (机 需 学 习 ) 

nonlinear ( 非 线 性 ) 

random forest (随机 和 森林) 
Amazon Web Services. See AWS AMM (Adaptive Multi - hyperplane Machines) (亚马逊 Web 服 
务 。 见 AWS AMM ， 自 适应 多 平面 机 ) 
approximations (近似 ) 

learning algorithms ( 学 习 算法 ) 


overview (预览 


AR (autoregressive) model (AR ( 自 回 归 ) 模型 ) 

ARMA (autoregressive - moving average) model (ARMA ( 自 回 归 移 动 平 均 ) 模型 ) 
artificial intelligence. See AI assumptions ，premature ( 人工 智能 。 见 AI 假设 ,不 成 熟 ) 
AUC (area under the curve) (AUC， 线 下 面积 ) 

Auto MPG dataset (汽车 MPG 数据 集 ) 

autocorrelation ( 自 相 关 ) 

automatic feature extraction (自动 特征 提取 ) 

average metric (平均 度量 ) 
AWS (Amazon Web Services) (AWS (亚马逊 Web 服务 )) 
AWS Kinesis (AWS Kinesis) 














B 

backward elimination (后 向 删除 ) 

bagging ( 装 袋 ) 

bag - of - words model NLP movie review example ( 词 袋 模型 NLP 电影 评论 案例 ) 
text features (文本 特征 ) 
tokenization and transformation (划分 和 转换 ) 
vectorization ( 向 量化 ) 

bandwidth parameter (带宽 参数 ) 

basis expansion methods (基本 扩展 方法 ) 

BIC (Bayesian information criterion) (BIC, 贝 叶 斯 信 息 法 则 ) 

big - data systems ，scaling ML workflows (大 数据 系统 ， 扩 展 机 各 学 习 流 程 ) 

bigrams ( 双 字 词 ) 

binary classification (二 进 制 分 类 ) 

Booleanized columns (布尔 化 列 ) 

boosting (提高 ) 

bootstrap aggregating ( 引 导 限 合 ) 

box plots ( 盒 图 ) 
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名 词 术语 中 英文 对 照 
BSGD (Budgeted Stochastic Gradient Descent) (BSGD ， 预 算 随 机 梯度 下 降 ) 


C 

Canny algorithm (Canny 算法 ) 

categorical data (类 别 型 数据 ) 

categorical features ，booleanizing (类 别 特征 ， 布 尔 化 ) 


categorical metrics (分 类 度量 





categorical variables (分 类 型 变量 ) 
categories type (分 类 类 型 ) 
churm prediction (流失 预测 ) 
class confusion (分 类 混合 ) 
class probabilities (分 类 概率 ) 
classical time series (经 典 时 间 序 列 ) 
classification (分 类 ) 
building classifier and making predictions (构建 分 类 器 并 进行 预测 ) 
of complex ，nonlinear data (复杂 的 非 线性 数据 ) 
with multiple classes (多 分 类 ) 
(构建 分 类 器 ， 并 进行 多 分 类 的 复杂 非 线性 数据 的 预测 ) 
classification models ，evaluation 
of (分 类 模型 ， 评 佑 ) 
accuracy trade - offs and ROC curves (精度 权衡 与 ROC 曲线 ) 
class - wise accuracy and confusion matrix (分 类 精度 和 混 消 和 矩阵 ) 
multiclass classification (多 类 别 分 类 ) 
classification tree algorithm (分 类 树 算 法 ) 
classifier (分 类 器 ) 
class - wise accuracy (分 类 精度 ) 
clickstream data ( 单 击 流 数 据 ) 
click -through rate，See CTR clustering (点 击 率 。 见 CTR 聚 类 ) 
cold - start problem ( 冷 启动 问题 ) 
collaborative filtering (协同 过 滤 ) 
collecting data (数据 收集 ) 
complex ，nonlinear data classification of (复杂 的 ， 非 线性 数据 分 类 ) 
performing regression on (执行 回归 ) 
computational layer (计算 层 ) 
(在 计算 层 上 对 复杂 的 非 线性 数据 分 类 执行 回归 ) 
conditional probability (条 件 概 率 ) 
confusion matrix (混淆 矩阵) 
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content expansion (内 容 扩展 ) 
follow links (跟踪 链接 ) 
knowledge - base expansion (基于 知识 的 扩展 ) 
text meta -features (文本 元 数据 ) 
CountVectorizer (计数 向 量 机 ) 
covariant features ( 协 变 特征 
covariate shift ( 协 移 ) 
CPM (cost per thousand) (CPM (每 千 广 告 位 的 花费 )) 
CSV files (CSV 文件 ) 
CTR (click -through rate) (CTR (点 击 率 ) ) 
一 cubic flag (立方 标志 ) 
curse of dimensionality (维度 诅咒 
CV (cross -validation) (CV (交叉 验证 ) ) 

holdout method (保持 法 ) 


k -fold cross - validation (k - 折 交 叉 验 证 ) 
告 ) 








Wo. 


warnings regarding ( 警 


data (数据 ) 
digital display advertising example (数字 显示 广告 案例 (数据 )) 
using to make decisions (用 于 决策 的 (数据 )) 
challenges (挑战 (数据) ) 
machine -learning approach( (处 理 数据 的 ) 机 带 学 习 方 法 ) 
traditional approaches (( 处 理 数据 的 ) 传统 方法 ) 

data collection (数据 收集 ) 
amount of training data required (训练 数据 需求 量 ) 
deciding which features to include (确定 包括 哪些 特征 
obtaining ground truth for target variable (获得 目标 变量 的 真实 数据 ) 
whether training set is representative enough (训练 集 是 否 有 足够 的 代表 性 ) 

data enhancements (数据 提升 ) 

data instances (数据 实例 ) 

data locality (数据 局 部 化 ) 

datamunging (数据 修改 ) 

data normalization (数据 规范 化 ) 

data rates (数据 率 ) 

datasparsity (数据 稀 疏 性 ) 

data visualization (数据 可 视 化 ) 
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名 词 术语 中 英文 对 昭 


box plots ( 盒 图 ) 
density plots (密度 图 ) 
mosaic plots (马赛 克 图 ) 
scatter plots ( 散 点 图 ) 
data volume and velocity ，scaling models with (数据 容易 和 速率 ， 扩 展 模型 ) 
data wrangling (数据 争论 ) 
DataFrame (数据 帧 ) 
dataset size ，increasing (数据 集 大 小 ， 增 长 ) 
dataset 一 splitting (数据 集 分 割 ) 
date and time features (日 期 和 时 间 特 征 
datetime string (日 期 时 间 字 符 串 ) 
decision boundary (决策 边界 ) 
decision trees algorithms (策略 树 算 法 ) 
deep belief networks (深信 和 度 网 络 ) 
deep learning (深度 学 习 ) 
deep neural nets，See DNNs (深度 神经 网 络 。 见 DNNs) 
demand forecasting (权威 预测 ) 
density plots (密度 图 ) 
dependent variable ( 因 变 量 ) 
deviance (偏差 ) 
diffusion maps (扩散 图 ) 
digital display advertising example (数字 显示 广告 案例 ) 
digital advertising data (数字 广告 数据 ) 
display advertising (显示 广告 ) 








We: 






































feature engineering (特征 工程 ) 
impression data (描述 数据 ) 
k - nearest neighbors (k 近邻 (算法 )) 
modeling strategy ( 建 模 策略 ) 
random forests (随机 和 森林) 
real - world considerations (实用 考虑 ) 
resource estimation and optimization (资源 估计 和 优化 ) 
singular value decomposition (奇异 值 分 解 ) 
terminology (术语 ) 
digital media (数字 媒体 ) 
dimensionality reduction ( 降 维 ) 
Dirichlet analysis ( 狄 利 克 雷 分 析 ) 
display advertising (显示 广告 ) 
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distribution metric (分 布 度量 
DNNs (deep neural nets) (DNNs (深度 神经 网 络 ) ) 

document tokenization (文档 划分 ) 

domain expertise ，feature engineering and (领域 专家 ,特征 工 程 ) 
dummy variables (虚拟 变量 / 哑 元 ) 











E 
EBS (elastic block storage) (EBS (弹性 块 存储 ) ) 
EC2 (Elastic Compute Cloud) (EC2 (弹性 计算 云 ) ) 
edge detection (边缘 检测 ) 
encoding categorical features (类 别 特征 编码 ) 
ensemble methods (集合 方法 ) 
Euclidean distance ( 欧 氏 距离 / 欧 几 里 得 距离 ) 
evaluating models (评估 模型 ) 
classification models (分 类 模型 ) 
accuracy trade - offs and ROC curves (精度 权衡 和 ROC 曲线 ) 
class - wise accuracy and confusion matrix (类 精度 和 混淆 矩阵) 
multiclass classification (多 类 别 分 类 ) 
predictive accuracy assessment (预测 精度 估计 ) 
cross 一 validation (交叉 验证 ) 
overfitting and model optimism (过 度 拟 合 和 模型 优化 ) 
regression models (回归 模型 ) 
residual analysis ( 残 差 分 析 ) 
simple metrics for (简单 标准 ) 
evaluation metric 
event data (事件 数据 ) 
event recommendation ，feature engineering and (事件 推荐 ,特征 工程 和 ) 
event streams (事件 流 ) 
EXIF data (EXIF 数据 ) 
explanatory variables (解释 型 变量 ) 
exposure time feature (上 曝露 时 间 特 征 
external data sources, feature engineering and (外 部 数据 源 ， 特 征 工程 ) 

















We 





F 
false positive rate， See FPR ( 假 正 率 。 见 FPR) 


feature engineering (特征 工程 ) 





date and time features (日 期 和 时 间 特 征 
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名 词 术语 中 英文 对 昭 


defined (已 定义 的 ) 
digital display advertising example (数字 显示 广告 案例 ) 
domain expertise and (领域 专家 和 ) 
event recommendation (事件 推荐 ) 
feature selection (特征 选择 ) 
for data exploration (数据 探索 ) 
forward selection and backward elimination (前 向 选 所 
real - world example of (实际 案例 ) 
image features ( 图像 特 征 ) 
extracting objects and shapes (提取 对 象 和 形状 ) 
simple (简单 的 ) 
reasons to use (使 用 原因 ) 
creating easily - interpreted features (创建 易 解 释 的 特征 ) 
creativity enhancement (创造 性 提升 ) 
external data sources (外 部 数据 源 ) 
transforming original data to relate to target (把 原始 数据 转换 成 相关 的 目标 变量 ) 
unstructured data sources (无 结构 数据 源 ) 
text features 
bag - of - words model ( 词 袋 模 型 ) 
content expansion (内 容 扩 展 ) 
simple (简单 的 ) 
topic modeling (主题 建 模 ) 
time - series features ( 时间 序列 特征 
classical (经 典 的 ) 
event streams (事件 流 ) 
prediction on time - series data ( 时 间 序 列 数据 预测 ) 
types of time - series data (时 间 序 列 数据 类 型 ) 
FOIL (Freedom of Information Law) (FOIL (信息 自 由 法 ) ) 
folds ( 折 ) 
follow links (跟踪 链接 ) 
forward selection (前 向 选择 
fourier analysis ( 健 里 叶 分 析 ) 
FPR (false positive rate) (FPR ( 假 正 率 )) 
fraud detection (欺诈 检测 ) 
Freedom of Information Law，See FOIL (信息 自由 法 ， 见 FOIL) 
full prediction probabilities (完全 预测 概率 ) 


























和 后 向 删除 ) 


tt 














网 








— 
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C 

gamma parameter (gamma 参数 ) 

GARCH model (GARCH 模型 ) 

Gaussian mixture models (高 斯 混合 模型 ) 
generalized additive models (广义 加 性 模型 ) 
Censim ( Censim ) 

graphic cards (图 形 显示 卡 / 显 卡 ) 

grid search (网 络 搜索 ) 

ground truth (真实 〈 值 ) ) 

guessing missing values (缺失 值 猜 测 ) 






































H 

HDFS ( Hadoop Distributed File System) (HDFS (Hadoop 分 布 式 文件 系统 ) ) 
held - out data (保留 数据 ) 

heterogeneous dataset (混合 数据 库 ) 

hierarchical clustering (层次 聚 类 ) 

high - dimensional space (高 维 空间 ) 

histogram approximations (直方 图 近似 /直方 图 逼近 ) 

HMM (Hidden Markov model) (HMM ( 隐 马 尔 可 夫 模 型 ) ) 

HOG (histogram of oriented gradients) (HOG (方向 梯度 直方 图 ) ) 
holdout method (保持 法 ) 

horizontal scaling (水 平 扩展 ) 

hyperparameters (超级 参数 ) 














I 
image features ( 图像 特 征 ) 
extracting objects and shapes (提取 对 象 和 形状 ) 


advanced shape features (高 级 形状 特征 


automatic feature extraction (自动 特征 提取 ) 








Nt 





dimensionality reduction ( 降 维 ) 
edge detection (边缘 检测 ) 
simple (简单 ) 
color features (颜色 特征 ) 
metadata features (元 特征 ) 
image metadata features (图像 元 特征 
IMDb (Internet Movie Database ) (IMDb (因特网 电影 数据 库 ) ) 
imputation ( 插 订 卜 ) 
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名 词 术语 中 英文 对 照 


increasing dataset size (增加 数据 集 大 小 ) 
independent variables ( 自 变 量 ) 
inference (推论 ) 

informative missing data ( 含 信息 的 缺失 数据 ) 
input features (输入 特征 ) 
input variables (输入 变量 ) 

instance clustering，subsampling training data (实例 聚 类 ， 训 练 数据 子 样本 ) 
instances (实例 ) 

integer features (整数 特征 / 整 型 特征 
intercept parameter ( 截 距 参数 ) 


internet cookies (JInternet Cookies ) 




















Wr 





invited data feature (应 邀 数据 特征 
itertools module (itertools 模块 ) 





We 


K 

k disjoint subsets (k 个 互 不 相交 的 子 集 ) 
Kaggle 

kernel coefficient parameter ( 核 系数 参数 ) 
kernel smoothing ( 核 平滑 ) 

kernel SVM algorithms ( 核 SVM 算法 ) 
kernel trick ( 核 隐 数 技巧 ) 

k -fold cross -validation (k 折 交 又 验 证 ) 
k -folds (k 折 ) 

k -means method (平均 方法 ) 








KNN (k - nearest neighbors) digital display advertising example (KNN (k 近邻 ) 数字 显示 广告 
实例 ) 
overview (预览 


knowledge - base expansion (基于 知识 的 扩展 ) 











L 

Labels (标记 ) 

lagged time series ( 汪 后 时 间 序 列 ) 

Lasso 

latent semantic analysis (潜在 语义 分 析 ) 
latitude/longitude space (纬度 /经 度 空间 ) 
lat/lng data feature (纬度 /经 度数 据 特征 ) 
LDA (latentDirichlet analysis) (LDA (潜在 狄 利 克 雷 分 析 )) 
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learning algorithms (学 习 算 法 ) 

data and algorithm approximations (数据 和 算法 近似 /数据 和 算法 逼近 ) 
deep neural nets (深度 神经 网 络 ) 

polynomial approach (多 项 式 方法 ) 

linear algorithms (线性 算法 ) 

linear discriminant analysis (线性 判别 分 析 ) 

linear model (线性 模型 ) 

linear regression (线性 回归 ) 

location data (位 置 数 据 ) 

logistic regression ( 敢 辑 回归 ) 

log -odds (对 数 几率 ) 

LSA (latent semantic analysis) (LSA ( 洲 在 语义 分 析 ) ) 
LSI (latent semantic indexing) (LSI (潜在 语义 索引 ) ) 


M 
machine leaming (机 器 学 习 ) 
boosting model performance (提升 模型 性 能 
data preprocessing and feature engineering (数据 预 处 理 和 特征 工程 ) 
improving models continually with online methods (在 线 方法 持续 改进 模型 ) 
scaling models with data volume and velocity (扩展 模型 的 数据 容量 和 速度 ) 
overview (预览 
terminology (术语 ) 
using data to make decisions (使 用 数据 进行 预测 ) 
challenges (挑战 ) 
machine -learning approach (机 带 学 习 方 法 ) 
traditional approaches (传统 方法 ) 
workflow (流程 ) 
data collection and preparation (数据 收集 和 准备 ) 
evaluating model performance (评估 模型 性 能 
learning model from data (从 数据 中 学 习 模 型 ) 
optimizing model performance (优化 模型 性 能 
magic -box model (魔术 盒 模型 ) 
Mahout library ( Mahout 库 ) 
manifold learning ( 流 形 学 习 ) 
manufacturer feature (厂商 (数据) 特征 
MapReduce algorithm (MapReduce 算法 ) 
MDR (missed detection rate) (MDR ( 漏 测 率 ) ) 
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名 词 术语 中 英文 对 昭 





mean squared error，See MSE meta -features ( 均 方 误差 。 见 MSE 元 特征 
methods of modeling ( 建 模 方法 ) 
nonparametric methods ( 非 参 数 方法 ) 
parametric methods (参数 方法 ) 
missing data (缺失 数据 ) 
missing values (缺失 值 ) 
mixture models (混合 模型 ) 
ML workflows ，scaling 
big - data systems (大 数据 系统 ) 
identifying important dimensions (识别 重要 维度 ) 
learning algorithms (学 习 算 法 ) 
approximations (近似 ) 
deep neural nets (深度 神经 网 络 ) 
polynomial approach (多 项 式 方法 ) 
modeling pipelines (模型 管道 ) 


Mt 


overview (预览 


predictions (预测 ) 
velocity (速度 ) 
volume (容量 ) 
subsampling training data (训练 数据 样本 ) 
feature selection (特征 选择 ) 
instance clustering (实例 聚 类 ) 
MLlib library ( MLlib 库 ) 
mlpack 
MNIST dataset (MNIST 数据 集 ) 
model evaluation (模型 评估 ) 
classification models (分 类 模型 ) 
accuracy trade - offs and ROC curves (准确 度 权 衡 和 ROC 曲线 ) 
class - wise accuracy and confusion matrix (类 准确 度 和 混淆 和 矩阵) 
multiclass classification (多 类 别 分 类 ) 
predictive accuracy assessment (预测 精度 估计 ) 
cross 一 validation (交叉 验证 ) 
overfitting and model optimism (过 度 拟 合 和 模型 优化 ) 
regression models (回归 模型 ) 
residual analysis ( 残 差 分 析 ) 
simple metrics for (简单 指标 ) 
model fitting (模型 拟 合 (的 简单 指标 ) ) 
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model optimization (模型 优化 ) 
cross 一 validation (交叉 验证 ) 
tuning parameters (调整 参数 ) 
algorithms and (算法 ) 
grid search (网 格 搜 索 ) 
model parameters ( 模 型 参数 ) 
model performance boosting with advanced techniques (高 级 技术 提升 模型 性 能 ) 
data preprocessing and feature engineering (数据 预 处 理 和 特征 工程 ) 
improving models continually with online methods (在 线 方法 持续 改进 模型 ) 
scaling models with data volume and velocity (扩展 模型 的 数据 容量 速率 ) 
evaluating (评估 ) 
optimizing (优化 ) 
model prediction (模型 预测 ) 
model training (模型 训练 ) 
modeling ( 建 模 ) 
digital display advertising example (数字 显示 广告 案例 ) 
input and target ，finding relationship between (查找 输入 和 目标 之 间 的 关系 ) 
methods of (方法 ) 
nonparametric methods ( 非 参 数 方法 ) 
parametric methods (参数 方法 ) 
New York City taxi data example (纽约 城市 出 租车 数据 案例 ) 
basic linear model (基本 线性 模型 ) 
including categorical features (包含 分 类 特征 ) 
including date -time features (包含 日 期 时 间 特 征 
model insights (洞察 模型 ) 
nonlinear classifier ( 非 线 性 分 类 器 ) 
purpose of finding good model (寻找 好 模型 的 目的 ) 
inference (推断 ) 
prediction (预测 ) 
supervised versus unsupervised learning (监督 学 习 和 非 监督 学 习 ) 
modeling pipelines ，scaling ML workflows ( 建 模 流程 ， 扩 展 机 器 学 习 流 程 ) 
models (模型 ) 
model - testing process (模型 测试 流程 ) 
mosaic plots ( 马赛 克 图 ) 
movie review example (电影 评论 案例 ) 
bag - of - words features ( 词 袋 特征 
dataset (数据 集 ) 
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model building with naive Bayes algorithm (朴素 贝 叶 斯 算法 构建 模型 ) 
optimizing parameters (优化 参数 ) 
random forest model (随机 森林 模型 ) 
use case (用 例 ) 
ranking new movies (新 电影 评级 ) 
rating each review from 1 to 10 (对 每 个 评论 进行 1 -10 评分 ) 
separating positive from negative reviews (从 负面 评论 中 分 离 积 极 评论 ) 
word2vec features (word2vec 特征 
MSE (mean squared error) ( MSE ( 均 方 误差 )) 
multiclass classification (多 类 别 分 类 ) 
multidimensional scaling ( 多 维度 扩 展 ) 
multiple classes ，classification with (多 类 别 ， 分 类 ) 





We 


N 
naive Bayes algorithms (朴素 贝 叶 斯 算法 ) 
NaN (Not a Number) (NaN ( 非 数 字 ) ) 
NearestNeighbors (最 近邻 ) 
negative classes (人 负 类 ) 
neural nets (神经 网 络 ) 
New York City taxi data example (纽约 城市 出 租车 数据 实例 ) 
defining problem and preparing data (问题 定义 和 准备 数据 ) 
modeling ( 建 模 ) 
basic linear model (基本 线性 模型 ) 
including categorical features (包含 分 类 特征 ) 
including date -time features (包含 日 期 时 间 特 征 
model insights (洞察 模型 ) 
nonlinear classifier ( 非 线 性 分 类 器 ) 
visualizing data (可视化 数据 ) 
N - grams (n 字 词 ) 
NLP (natural language processing) ，movie review example (NLP (自然 语言 处 理 ) ， 电 影评 论 
案例 ) 
bag - of - words features ( 词 袋 特征 
dataset (数据 集 ) 
model (模型 ) 
random forest model (随机 森林 模型 ) 
use case (用 例 ) 


word2vec features (word2vec 特征 ) 




















— 
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NNs (neural nets) ，learning algorithms (NNs (神经 网 络 ) ， 学 习 算 法 ) 
noisy data (噪声 数据 ) 
nondiagonal items ( 非 对 角 项 ) 
nonhomogeneous Poisson processes ( 非 均 匀 泊 松 过 程 ) 
nonlinear algorithm ( 非 线性 算法 ) 
nonlinear data classification of ( 非 线 性 数据 分 类 ) 
performing regression on (执行 回归 ) 
nonlinear models ( 非 线 性 模型 ) 
nonparametric algorithms ( 非 参 数 算法 ) 
normalized data (规范 化 的 数据 ) 
Not a Number. See NaN numerical columns ( 非 数 字 。 见 NaN 数值 型 列 ) 
numerical features (数值 型 特征 ) 
numerical metrics (数值 型 指标 ) 
numerical values ，predicting (数值 型 值 ， 预 测 ) 
buildingregressor and making predictions (构建 回归 器 并 进行 预测 ) 
performing regression on complex, nonlinear data (对 复杂 的 ， 非 线性 数据 执行 回归 ) 





O 
object and shape extraction (对 象 和 形状 提取 ) 
advanced shape features (高 级 形状 特征 


automatic feature extraction (自动 特征 提取 ) 





Wt 





dimensionality reduction ( 降 维 ) 
edge detection (边缘 检测 ) 
one per category per feature (每 个 特征 一 个 分 类 ) 
one -versus -all trick (一 对 全 技巧 ) 
online learning (在 线 学 习 ) 
online methods ，improving models continually with (在 线 方法 ， 持 续 改进 模型 ) 
open data (开源 数据 ) 
optimization procedure (优化 过 程 ) 
optimizing models (优化 模型 ) 
cross 一 validation (交叉 验证 ) 
tuning parameters (调整 参数 ) 
algorithms and (算法 和 ) 
grid search (网 格 搜索 ) 
optimizing parameters (优化 参数 ) 
orientation feature (定向 特征 ) 
outliers metric (异常 值 度量 ) 
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out -of -core ( 核 外 (运算 )) 
overfitting ，resolving with cross validation (交叉 验证 解决 过 度 拟 合 ) 





P 
pandas library (pandas 库 ) 
parametric methods (参数 方法 ) 
parametric models (参数 模型 ) 
payment type feature (支付 类 型 特征 ) 
payment。 type column (支付 类 型 列 ) 
PCA (principal component analysis) (PCA ( 主 成 分 分 析 )) 
periodogram (周期 图 ) 
plots (图 ) 
box plots ( 盒 图 ) 
density plots (密度 图 ) 
mosaic plots ( 马赛克 图 ) 
scatter plots ( 散 点 图 ) 
pLSA (probabilistic latent semantic analysis) (潜在 语义 分 析 概 率 ) 
point process (点 过 程 ) 





Poisson processes ( 泊 松 过 程 ) 





polynomial features (多 项 式 特征 ) 
polynomial regression (多 项 式 回归 ) 
positive classes (积极 分 类 ) 
prediction (预测 ) 
classification and (分 类 和 ) 
building classifier and making predictions (构建 分 类 器 并 预测 ) 
classifying complex，nonlinear data (分 类 复杂 性 ， 非 线性 数据 ) 
classifying with multiple classes (多 类 别 分 类 ) 
regression and (回归 和 ) 
building regressor and making predictions (构建 回归 需 并 预测 ) 
performing regression on complex，nonlinear data (对 复杂 的 ， 非 线性 数据 进行 回归 ) 
predictive accuracy assessment (预测 准确 度 估 计 ) 
cross 一 validation (交叉 验证 ) 
holdout method (保持 法 ) 
k -fold cross - validation (k - 折 交 叉 验 证 ) 
warnings regarding (和 警告) 
overfitting and model optimism (过 度 拟 合 和 模型 优化 ) 
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premature assumptions (不 成 熟 假 设 ) 
preparing data (数据 准备 ) 
preprocessing data (数据 预 处 理 ) 
categorical features (分 类 特征 ) 
data normalization (数据 规范 化 ) 
dealing with missing data (缺失 数据 处 理 ) 


simple feature engineering (简单 特征 工程 ) 








principal component analysis. See PCA principal components regression ( 主 成 分 分 析 。 见 PCA 主 
成 分 回归 ) 

probabilistic classifier (概率 分 类 器 ) 

probabilistic latent semantic analysis. See pLSA probabilistic ML model (潜在 语义 分 析 概 率 。 见 
PLSA 概率 机 器 学 习 模型 ) 

probabilistic topic modeling methods (概率 主题 建 模 方法 ) 

probability vectors (概率 向 量 
Python Pandas 





Q 
quadratic discriminant analysis (二 次 判别 分 析 ) 
quartiles ( 四 分 位 数 ) 


R 
R data frames (有 人 数据 帧 ) 
RAM (random access memory) (RAM (随机 访问 内 存 ) ) 
random forest algorithm.，See RF (随机 森林 算法 。 见 RF) 
random forests (随机 和 森林) 
digital display advertising example (数字 显示 广告 案例 ) 
NLP movie review example (NLP 电影 评论 案例 ) 
overview (预览 
RBF (radial basis function) (RBF ( 径 向 基 汪 数 )) 
real -time bidding (实时 竞价 ) 
recall process (回忆 过 程 ) 
receiver operating characteristic。See ROC (接受 者 操作 特性 。 见 ROC) 
recommenders (推荐 系统 ) 
regression (回归 ) 
buildingregressor and making predictions (构建 回归 器 并 预测 ) 
performing on complex，nonlinear data (对 复杂 的 ， 非 线性 数据 进行 回归 ) 
regression models (回归 模型 ) 
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evaluation of ( 评 佑 ) 
residual analysis ( 残 差 分 析 ) 
simple metrics for (简单 指标 ) 


overview (预览 


regularization technique (正规 化 技术 ) 
representative data (有 代表 性 的 数据 ) 
representativeness training sets (代表 性 训练 数据 ) 
residual analysis ( 残 差分 析 ) 
resolution feature (解析 度 特征 
resource estimation and optimization ，digital display advertising example (资源 估计 与 优化 ， 数 字 
显示 广告 案例 ) 

response variables ( 因 变 量 /应 变量 
return on advertising spend.，See ROAS (广告 支出 回报 率 。 见 ROAS) 

RF (random forest) algorithm (RF (随机 森林) 算法 ) 

ridge regression ( 誉 回 归 ) 

RMSE (root - mean - square error) (RMSE ( 均 方 根 误差 ) ) 

ROAS (return on advertising spend) (ROAS (广告 支出 回报 率 ) ) 

ROC (receiver operating characteristic) curve (ROC (接受 者 操作 特征 ) 曲线 ) 
R - squared value (R 平方 值 ) 








— 



































S 
S3 (Simple Storage Service) (S3 (简单 存储 服务 ) ) 
sample - selection bias (样本 选择 偏差 ) 
scaling ML workflows (扩展 机 器 学 习 流 程 ) 
big - data systems (大 数据 系统 ) 
identifying important dimensions (识别 重要 维度 ) 
learning algorithms (学 习 算 法 ) 
approximations (近似 ) 
deep neural nets (深度 神经 网 络 ) 
polynomial approach (多 项 式 特 征 
modeling pipelines ( 建 模 流程 ) 
overview (预览 
predictions (预测 ) 
velocity ( 速度) 
volume (容量 ) 
subsampling training data (训练 数据 子 样本 ) 


feature selection (特征 选择 ) 








Wr 
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instance clustering (实例 聚 复 ) 
scaling models ，with data volume and velocity (扩展 模型 的 数据 容 


scatter plots ( 散 点 图 ) 


scenarios ，too 一 good — to — be true ( 太 好 而 不 真实 的 场景 ) 


scikit ~ image 


scikit — learn library (scikit -learm 库 ) 


semantic analysis (语义 分 析 ) 


simple models (简单 模型 ) 


Simple Storage Service. See S3 (简单 存储 服务 。 见 S3 ) 
singular value decomposition，See SVD (奇异 值 分 析 。 见 SVD) 


Sobel algorithm (Sobel 算法 ) 


spam detectors (垃圾 邮件 检测 器 ) 


Spark Streaming (Spark 流 
sparse data ( 稀 玻 数据 ) 


) 


spectral density (频谱 密度 ) 


splines (splines 方法 ) 
spread metric (传播 度量 ) 
stacking ( 层 著 ) 


statistical correlation techniques (统计 相关 技术 ) 


statistical deviance (统计 偏差 ) 
statistical modeling (统计 建 模 ) 


statsmodels module (statsmodels 模块 ) 


stemming (有 取 词 干 ) 
stop words (终止 词 ) 
storage layer (存储 层 ) 
straight line (直线 ) 








striping word suffixes (去 除 词缀 ) 


subnodes ( 子 节点 ) 


subsampling training data (训练 数据 子 样本 ) 
选择 


feature selection ( 特 和 


instance clustering (实例 聚 簇 ) 
supervised learning overview (监督 学 习 概 述 ) 


versus unsupervised learning (与 非 监 督学 习 ) 





和 





supervised models (监督 模型 ) 


support vector machines (支持 向 量 机 ) 
SVD (singular value decomposition) (SVD (奇异 值 分 解 ) ) 
SVM (support vector machine) (SVM (支持 向 量 机 )) 
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T 
tabular data (表格 式 数 据 ) 
target variables (目标 变量 ) 
targets ( 目 标 ) 
telecom churn (电信 客户 流失 ) 
temporal data order (时 间 数 据 顺序 ) 
term frequency - inverse document frequency ( 词 频 - 逆向 文件 频率 ) 
term - document matrix (词语 文档 矩阵) 
testing data (测试 数据 ) 
text features (文本 特征 ) 
bag - of - words model ( 词 袋 模 型 ) 
tokenization and transformation (划分 和 转换 ) 
vectorization ( 向 量化 ) 
content expansion ( 内容 扩展 ) 
follow links (跟踪 链接 ) 
knowledge - base expansion (基于 知识 的 扩展 ) 
text meta - features (文本 元 特征 
simple (简单 ) 
topic modeling (主题 建 模 ) 
latent semantic analysis (潜在 语义 分 析 ) 
probabilistic methods (概率 方法 ) 
term frequency - inverse document frequency ( 词 频 - 逆向 文件 频率 ) 
text meta -features (文本 元 特征 
TfidfVectorizer (TfidfVectorizer 向 量 机 ) 
threshold ( 阔 值 ) 
time - series features ( 时间 序列 特征 
classical (经 典 的 ) 
advanced (高 级 的 ) 
simple (简单 的 ) 
for event streams (事件 流 ) 
time - series data (事件 序列 数据 ) 
prediction on (预测 ) 
types of (类 型 ) 
time — series forecasting (时 间 序 列 预测 ) 
Titanic Passengers dataset (泰坦 尼克 乘客 数据 集 ) 
tokenization (划分 ) 











Ye 








Ne 
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too - good -to - be -true scenarios ( 太 好 而 不 真实 的 场景 ) 
topic modeling (主题 建 模 ) 

latent semantic analysis (潜在 语义 分 析 ) 

probabilistic methods (概率 方法 ) 


term frequency - inverse document frequency ( 词 频 - 逆向 文件 频率 ) 


TPR (true positive rate) (TPR (真正 率 ) ) 
traditional display advertising (传统 显示 广告 ) 
training data (训练 数据 ) 
feature selection (特征 选择 ) 
instance clustering (实例 聚 簇 ) 
training phase (训练 阶段 ) 
training set (训练 集 ) 
transformation ，text features ( 变形， 文本 特征 ) 
trigrams (三 字 词 ) 


























tuning parameters (调整 参数 ) 
algorithms and (算法 和 ) 
grid search (网 格 搜索 ) 


U 

underfitting data ( 欠 拟 合 数 据 ) 
unigrams (单字 词 ) 

unknown parameters (未 知 参数 ) 
unlabeled data (未 标记 数据 ) 
unseen data (未 见 过 的 数据 ) 





unstructured data sources，feature engineering and (无 结构 数据 源 ， 特 和 
unsupervised learning, versus (无 监督 学 习 ， 与 ) 

supervised learning (监督 学 习 ) 

unsupervised models (无 监督 模型 ) 


Vv 
variables of interest ( 感 兴趣 的 变量 ) 
vectorization ，text features (向 量化 ， 文 本 特征 
vectorizer dictionary ( 癌 量 词典 ) 
vectorizers ( 问 量化 ) 
velocity ，scaling predictions (速度 扩展 预测 ) 
vertical scaling (垂直 扩展 ) 
viewable seconds (可 见 秒 数 ) 
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visualizing data (可 视 化 数据 ) 
volume，scaling predictions (容量 扩展 预测 ) 
Vowpal Wabbit 





WwW 
windowed differences (窗口 差异 ) 
wordvectorizers (单词 向 量 
word2vec features ，NLP movie review example (word2vec 特征 ，NLP 电影 评论 实例 ) 
workflow ，machine learning (流程 ， 机 器 学 习 ) 

data collection and preparation (数据 收集 和 准备 ) 

evaluating model performance (模型 性 能 评估 ) 

learning model from data (从 数据 中 学 习 模 型 ) 

optimizing model performance (优化 模型 性 能 
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